PyPI - yomitoku - Versions diffs - 0.4.0.post1.dev0__py3-none-any.whl - Mend

yomitoku 0.4.0.post1.dev0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (52) hide show

yomitoku/__init__.py +20 -0
yomitoku/base.py +136 -0
yomitoku/cli/__init__.py +0 -0
yomitoku/cli/main.py +230 -0
yomitoku/configs/__init__.py +13 -0
yomitoku/configs/cfg_layout_parser_rtdtrv2.py +89 -0
yomitoku/configs/cfg_table_structure_recognizer_rtdtrv2.py +80 -0
yomitoku/configs/cfg_text_detector_dbnet.py +49 -0
yomitoku/configs/cfg_text_recognizer_parseq.py +51 -0
yomitoku/constants.py +32 -0
yomitoku/data/__init__.py +3 -0
yomitoku/data/dataset.py +40 -0
yomitoku/data/functions.py +279 -0
yomitoku/document_analyzer.py +315 -0
yomitoku/export/__init__.py +6 -0
yomitoku/export/export_csv.py +71 -0
yomitoku/export/export_html.py +188 -0
yomitoku/export/export_json.py +34 -0
yomitoku/export/export_markdown.py +145 -0
yomitoku/layout_analyzer.py +66 -0
yomitoku/layout_parser.py +189 -0
yomitoku/models/__init__.py +9 -0
yomitoku/models/dbnet_plus.py +272 -0
yomitoku/models/layers/__init__.py +0 -0
yomitoku/models/layers/activate.py +38 -0
yomitoku/models/layers/dbnet_feature_attention.py +160 -0
yomitoku/models/layers/parseq_transformer.py +218 -0
yomitoku/models/layers/rtdetr_backbone.py +333 -0
yomitoku/models/layers/rtdetr_hybrid_encoder.py +433 -0
yomitoku/models/layers/rtdetrv2_decoder.py +811 -0
yomitoku/models/parseq.py +243 -0
yomitoku/models/rtdetr.py +22 -0
yomitoku/ocr.py +87 -0
yomitoku/postprocessor/__init__.py +9 -0
yomitoku/postprocessor/dbnet_postporcessor.py +137 -0
yomitoku/postprocessor/parseq_tokenizer.py +128 -0
yomitoku/postprocessor/rtdetr_postprocessor.py +107 -0
yomitoku/reading_order.py +214 -0
yomitoku/resource/MPLUS1p-Medium.ttf +0 -0
yomitoku/resource/charset.txt +1 -0
yomitoku/table_structure_recognizer.py +244 -0
yomitoku/text_detector.py +103 -0
yomitoku/text_recognizer.py +128 -0
yomitoku/utils/__init__.py +0 -0
yomitoku/utils/graph.py +20 -0
yomitoku/utils/logger.py +15 -0
yomitoku/utils/misc.py +102 -0
yomitoku/utils/visualizer.py +179 -0
yomitoku-0.4.0.post1.dev0.dist-info/METADATA +127 -0
yomitoku-0.4.0.post1.dev0.dist-info/RECORD +52 -0
yomitoku-0.4.0.post1.dev0.dist-info/WHEEL +4 -0
yomitoku-0.4.0.post1.dev0.dist-info/entry_points.txt +2 -0

yomitoku/export/export_csv.py ADDED Viewed

@@ -0,0 +1,71 @@
+import csv
+def table_to_csv(table, ignore_line_break):
+    num_rows = table.n_row
+    num_cols = table.n_col
+    table_array = [["" for _ in range(num_cols)] for _ in range(num_rows)]
+    for cell in table.cells:
+        row = cell.row - 1
+        col = cell.col - 1
+        row_span = cell.row_span
+        col_span = cell.col_span
+        contents = cell.contents
+        if ignore_line_break:
+            contents = contents.replace("\n", "")
+        for i in range(row, row + row_span):
+            for j in range(col, col + col_span):
+                if i == row and j == col:
+                    table_array[i][j] = contents
+    return table_array
+def paragraph_to_csv(paragraph, ignore_line_break):
+    contents = paragraph.contents
+    if ignore_line_break:
+        contents = contents.replace("\n", "")
+    return contents
+def export_csv(inputs, out_path: str, ignore_line_break: bool = False):
+    elements = []
+    for table in inputs.tables:
+        table_csv = table_to_csv(table, ignore_line_break)
+        elements.append(
+            {
+                "type": "table",
+                "box": table.box,
+                "element": table_csv,
+                "order": table.order,
+            }
+        )
+    for paraghraph in inputs.paragraphs:
+        contents = paragraph_to_csv(paraghraph, ignore_line_break)
+        elements.append(
+            {
+                "type": "paragraph",
+                "box": paraghraph.box,
+                "element": contents,
+                "order": paraghraph.order,
+            }
+        )
+    elements = sorted(elements, key=lambda x: x["order"])
+    with open(out_path, "w", newline="", encoding="utf-8") as f:
+        writer = csv.writer(f, quoting=csv.QUOTE_MINIMAL)
+        for element in elements:
+            if element["type"] == "table":
+                writer.writerows(element["element"])
+            else:
+                writer.writerow([element["element"]])
+            writer.writerow([""])

yomitoku/export/export_html.py ADDED Viewed

@@ -0,0 +1,188 @@
+import re
+import os
+import cv2
+from html import escape
+from lxml import etree, html
+def convert_text_to_html(text):
+    """
+    入力されたテキストをHTMLに変換する関数。
+    URLを検出してリンク化せずそのまま表示し、それ以外はHTMLエスケープする。
+    """
+    url_regex = re.compile(r"https?://[^\s<>]")
+    def replace_url(match):
+        url = match.group(0)
+        return escape(url)
+    return url_regex.sub(replace_url, escape(text))
+def add_td_tag(contents, row_span, col_span):
+    return f'<td rowspan="{row_span}" colspan="{col_span}">{contents}</td>'
+def add_table_tag(contents):
+    return f'<table border="1" style="border-collapse: collapse">{contents}</table>'
+def add_tr_tag(contents):
+    return f"<tr>{contents}</tr>"
+def add_p_tag(contents):
+    return f"<p>{contents}</p>"
+def add_html_tag(text):
+    return f"<html><body>{text}</body></html>"
+def add_h1_tag(contents):
+    return f"<h1>{contents}</h1>"
+def table_to_html(table, ignore_line_break):
+    pre_row = 1
+    rows = []
+    row = []
+    for cell in table.cells:
+        if cell.row != pre_row:
+            rows.append(add_tr_tag("".join(row)))
+            row = []
+        row_span = cell.row_span
+        col_span = cell.col_span
+        contents = cell.contents
+        if contents is None:
+            contents = ""
+        contents = convert_text_to_html(contents)
+        if ignore_line_break:
+            contents = contents.replace("\n", "")
+        else:
+            contents = contents.replace("\n", "<br>")
+        row.append(add_td_tag(contents, row_span, col_span))
+        pre_row = cell.row
+    else:
+        rows.append(add_tr_tag("".join(row)))
+    table_html = add_table_tag("".join(rows))
+    return {
+        "box": table.box,
+        "order": table.order,
+        "html": table_html,
+    }
+def paragraph_to_html(paragraph, ignore_line_break):
+    contents = paragraph.contents
+    contents = convert_text_to_html(contents)
+    if ignore_line_break:
+        contents = contents.replace("\n", "")
+    else:
+        contents = contents.replace("\n", "<br>")
+    if paragraph.role == "section_headings":
+        contents = add_h1_tag(contents)
+    return {
+        "box": paragraph.box,
+        "order": paragraph.order,
+        "html": add_p_tag(contents),
+    }
+def figure_to_html(
+    figures,
+    img,
+    out_path,
+    export_figure_letter=False,
+    ignore_line_break=False,
+    figure_dir="figures",
+    width=200,
+):
+    elements = []
+    for i, figure in enumerate(figures):
+        x1, y1, x2, y2 = map(int, figure.box)
+        figure_img = img[y1:y2, x1:x2, :]
+        save_dir = os.path.dirname(out_path)
+        save_dir = os.path.join(save_dir, figure_dir)
+        os.makedirs(save_dir, exist_ok=True)
+        filename = os.path.splitext(os.path.basename(out_path))[0]
+        figure_name = f"{filename}_figure_{i}.png"
+        figure_path = os.path.join(save_dir, figure_name)
+        cv2.imwrite(figure_path, figure_img)
+        elements.append(
+            {
+                "order": figure.order,
+                "html": f'<img src="{figure_dir}/{figure_name}" width="{width}"><br>',
+            }
+        )
+        if export_figure_letter:
+            paragraphs = sorted(figure.paragraphs, key=lambda x: x.order)
+            for paragraph in paragraphs:
+                contents = paragraph_to_html(paragraph, ignore_line_break)
+                html = contents["html"]
+                elements.append(
+                    {
+                        "order": figure.order,
+                        "html": html,
+                    }
+                )
+    return elements
+def export_html(
+    inputs,
+    out_path: str,
+    ignore_line_break: bool = False,
+    export_figure: bool = True,
+    export_figure_letter: bool = False,
+    img=None,
+    figure_width=200,
+    figure_dir="figures",
+):
+    html_string = ""
+    elements = []
+    for table in inputs.tables:
+        elements.append(table_to_html(table, ignore_line_break))
+    for paragraph in inputs.paragraphs:
+        elements.append(paragraph_to_html(paragraph, ignore_line_break))
+    if export_figure:
+        elements.extend(
+            figure_to_html(
+                inputs.figures,
+                img,
+                out_path,
+                export_figure_letter,
+                ignore_line_break,
+                width=figure_width,
+                figure_dir=figure_dir,
+            ),
+        )
+    elements = sorted(elements, key=lambda x: x["order"])
+    html_string = "".join([element["html"] for element in elements])
+    html_string = add_html_tag(html_string)
+    parsed_html = html.fromstring(html_string)
+    formatted_html = etree.tostring(parsed_html, pretty_print=True, encoding="unicode")
+    with open(out_path, "w", encoding="utf-8") as f:
+        f.write(formatted_html)

yomitoku/export/export_json.py ADDED Viewed

@@ -0,0 +1,34 @@
+import json
+def paragraph_to_json(paragraph, ignore_line_break):
+    if ignore_line_break:
+        paragraph.contents = paragraph.contents.replace("\n", "")
+def table_to_json(table, ignore_line_break):
+    for cell in table.cells:
+        if ignore_line_break:
+            cell.contents = cell.contents.replace("\n", "")
+def export_json(inputs, out_path, ignore_line_break=False):
+    from yomitoku.document_analyzer import DocumentAnalyzerSchema
+    if isinstance(inputs, DocumentAnalyzerSchema):
+        for table in inputs.tables:
+            table_to_json(table, ignore_line_break)
+    if isinstance(inputs, DocumentAnalyzerSchema):
+        for paragraph in inputs.paragraphs:
+            paragraph_to_json(paragraph, ignore_line_break)
+    with open(out_path, "w", encoding="utf-8") as f:
+        json.dump(
+            inputs.model_dump(),
+            f,
+            ensure_ascii=False,
+            indent=4,
+            sort_keys=True,
+            separators=(",", ": "),
+        )

yomitoku/export/export_markdown.py ADDED Viewed

@@ -0,0 +1,145 @@
+import re
+import cv2
+import os
+def escape_markdown_special_chars(text):
+    special_chars = r"([`*_{}[\]()#+.!|-])"
+    return re.sub(special_chars, r"\\\1", text)
+def paragraph_to_md(paragraph, ignore_line_break):
+    contents = escape_markdown_special_chars(paragraph.contents)
+    if ignore_line_break:
+        contents = contents.replace("\n", "")
+    else:
+        contents = contents.replace("\n", "<br>")
+    if paragraph.role == "section_headings":
+        contents = "# " + contents
+    return {
+        "order": paragraph.order,
+        "box": paragraph.box,
+        "md": contents + "\n",
+    }
+def table_to_md(table, ignore_line_break):
+    num_rows = table.n_row
+    num_cols = table.n_col
+    table_array = [["" for _ in range(num_cols)] for _ in range(num_rows)]
+    for cell in table.cells:
+        row = cell.row - 1
+        col = cell.col - 1
+        row_span = cell.row_span
+        col_span = cell.col_span
+        contents = cell.contents
+        for i in range(row, row + row_span):
+            for j in range(col, col + col_span):
+                contents = escape_markdown_special_chars(contents)
+                if ignore_line_break:
+                    contents = contents.replace("\n", "")
+                else:
+                    contents = contents.replace("\n", "<br>")
+                if i == row and j == col:
+                    table_array[i][j] = contents
+    table_md = ""
+    for i in range(num_rows):
+        row = "|".join(table_array[i])
+        table_md += f"|{row}|\n"
+        if i == 0:
+            header = "|".join(["-" for _ in range(num_cols)])
+            table_md += f"|{header}|\n"
+    return {
+        "order": table.order,
+        "box": table.box,
+        "md": table_md,
+    }
+def figure_to_md(
+    figures,
+    img,
+    out_path,
+    export_figure_letter=False,
+    ignore_line_break=False,
+    width=200,
+    figure_dir="figures",
+):
+    elements = []
+    for i, figure in enumerate(figures):
+        x1, y1, x2, y2 = map(int, figure.box)
+        figure_img = img[y1:y2, x1:x2, :]
+        save_dir = os.path.dirname(out_path)
+        save_dir = os.path.join(save_dir, figure_dir)
+        os.makedirs(save_dir, exist_ok=True)
+        filename = os.path.splitext(os.path.basename(out_path))[0]
+        figure_name = f"{filename}_figure_{i}.png"
+        figure_path = os.path.join(save_dir, figure_name)
+        cv2.imwrite(figure_path, figure_img)
+        elements.append(
+            {
+                "order": figure.order,
+                "md": f'<img src="{figure_dir}/{figure_name}" width="{width}px"><br>',
+            }
+        )
+        if export_figure_letter:
+            paragraphs = sorted(figure.paragraphs, key=lambda x: x.order)
+            for paragraph in paragraphs:
+                element = paragraph_to_md(paragraph, ignore_line_break)
+                element = {
+                    "order": figure.order,
+                    "md": element["md"],
+                }
+                elements.append(element)
+    return elements
+def export_markdown(
+    inputs,
+    out_path: str,
+    img=None,
+    ignore_line_break: bool = False,
+    export_figure_letter=False,
+    export_figure=True,
+    figure_width=200,
+    figure_dir="figures",
+):
+    elements = []
+    for table in inputs.tables:
+        elements.append(table_to_md(table, ignore_line_break))
+    for paragraph in inputs.paragraphs:
+        elements.append(paragraph_to_md(paragraph, ignore_line_break))
+    if export_figure:
+        elements.extend(
+            figure_to_md(
+                inputs.figures,
+                img,
+                out_path,
+                export_figure_letter,
+                ignore_line_break,
+                figure_width,
+                figure_dir=figure_dir,
+            )
+        )
+    elements = sorted(elements, key=lambda x: x["order"])
+    markdown = "\n".join([element["md"] for element in elements])
+    with open(out_path, "w", encoding="utf-8") as f:
+        f.write(markdown)

yomitoku/layout_analyzer.py ADDED Viewed

@@ -0,0 +1,66 @@
+from typing import List
+from .base import BaseSchema
+from .layout_parser import Element, LayoutParser
+from .table_structure_recognizer import (
+    TableStructureRecognizer,
+    TableStructureRecognizerSchema,
+)
+class LayoutAnalyzerSchema(BaseSchema):
+    paragraphs: List[Element]
+    tables: List[TableStructureRecognizerSchema]
+    figures: List[Element]
+class LayoutAnalyzer:
+    def __init__(self, configs=None, device="cuda", visualize=False):
+        layout_parser_kwargs = {
+            "device": device,
+            "visualize": visualize,
+        }
+        table_structure_recognizer_kwargs = {
+            "device": device,
+            "visualize": visualize,
+        }
+        if isinstance(configs, dict):
+            assert (
+                "layout_parser" in configs
+                or "table_structure_recognizer" in configs
+            ), "Invalid config key. Please check the config keys."
+            if "layout_parser" in configs:
+                layout_parser_kwargs.update(configs["layout_parser"])
+            if "table_structure_recognizer" in configs:
+                table_structure_recognizer_kwargs.update(
+                    configs["table_structure_recognizer"]
+                )
+        else:
+            raise ValueError(
+                "configs must be a dict. See the https://kotaro-kinoshita.github.io/yomitoku-dev/usage/"
+            )
+        self.layout_parser = LayoutParser(
+            **layout_parser_kwargs,
+        )
+        self.table_structure_recognizer = TableStructureRecognizer(
+            **table_structure_recognizer_kwargs,
+        )
+    def __call__(self, img):
+        layout_results, vis = self.layout_parser(img)
+        table_boxes = [table.box for table in layout_results.tables]
+        table_results, vis = self.table_structure_recognizer(
+            img, table_boxes, vis=vis
+        )
+        results = LayoutAnalyzerSchema(
+            paragraphs=layout_results.paragraphs,
+            tables=table_results,
+            figures=layout_results.figures,
+        )
+        return results, vis

yomitoku/layout_parser.py ADDED Viewed

@@ -0,0 +1,189 @@
+from typing import List, Union
+import cv2
+import torch
+import torchvision.transforms as T
+from PIL import Image
+from pydantic import conlist
+from .base import BaseModelCatalog, BaseModule, BaseSchema
+from .configs import LayoutParserRTDETRv2Config
+from .models import RTDETRv2
+from .postprocessor import RTDETRPostProcessor
+from .utils.misc import filter_by_flag, is_contained
+from .utils.visualizer import layout_visualizer
+class Element(BaseSchema):
+    box: conlist(int, min_length=4, max_length=4)
+    score: float
+    role: Union[str, None]
+class LayoutParserSchema(BaseSchema):
+    paragraphs: List[Element]
+    tables: List[Element]
+    figures: List[Element]
+class LayoutParserModelCatalog(BaseModelCatalog):
+    def __init__(self):
+        super().__init__()
+        self.register("rtdetrv2", LayoutParserRTDETRv2Config, RTDETRv2)
+def filter_contained_rectangles_within_category(category_elements):
+    """同一カテゴリに属する矩形のうち、他の矩形の内側に含まれるものを除外"""
+    for category, elements in category_elements.items():
+        group_box = [element["box"] for element in elements]
+        check_list = [True] * len(group_box)
+        for i, box_i in enumerate(group_box):
+            for j, box_j in enumerate(group_box):
+                if i >= j:
+                    continue
+                ij = is_contained(box_i, box_j)
+                ji = is_contained(box_j, box_i)
+                box_i_area = (box_i[2] - box_i[0]) * (box_i[3] - box_i[1])
+                box_j_area = (box_j[2] - box_j[0]) * (box_j[3] - box_j[1])
+                # 双方から見て内包関係にある場合、面積の大きい方を残す
+                if ij and ji:
+                    if box_i_area > box_j_area:
+                        check_list[j] = False
+                    else:
+                        check_list[i] = False
+                elif ij:
+                    check_list[j] = False
+                elif ji:
+                    check_list[i] = False
+        category_elements[category] = filter_by_flag(elements, check_list)
+    return category_elements
+def filter_contained_rectangles_across_categories(category_elements, source, target):
+    """sourceカテゴリの矩形がtargetカテゴリの矩形に内包される場合、sourceカテゴリの矩形を除外"""
+    src_boxes = [element["box"] for element in category_elements[source]]
+    tgt_boxes = [element["box"] for element in category_elements[target]]
+    check_list = [True] * len(tgt_boxes)
+    for i, src_box in enumerate(src_boxes):
+        for j, tgt_box in enumerate(tgt_boxes):
+            if is_contained(src_box, tgt_box):
+                check_list[j] = False
+    category_elements[target] = filter_by_flag(category_elements[target], check_list)
+    return category_elements
+class LayoutParser(BaseModule):
+    model_catalog = LayoutParserModelCatalog()
+    def __init__(
+        self,
+        model_name="rtdetrv2",
+        path_cfg=None,
+        device="cuda",
+        visualize=False,
+        from_pretrained=True,
+    ):
+        super().__init__()
+        self.load_model(model_name, path_cfg, from_pretrained)
+        self.device = device
+        self.visualize = visualize
+        self.model.eval()
+        self.model.to(self.device)
+        self.postprocessor = RTDETRPostProcessor(
+            num_classes=self._cfg.RTDETRTransformerv2.num_classes,
+            num_top_queries=self._cfg.RTDETRTransformerv2.num_queries,
+        )
+        self.transforms = T.Compose(
+            [
+                T.Resize(self._cfg.data.img_size),
+                T.ToTensor(),
+            ]
+        )
+        self.thresh_score = self._cfg.thresh_score
+        self.label_mapper = {
+            id: category for id, category in enumerate(self._cfg.category)
+        }
+        self.role = self._cfg.role
+    def preprocess(self, img):
+        cv_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
+        img = Image.fromarray(cv_img)
+        img_tensor = self.transforms(img)[None].to(self.device)
+        return img_tensor
+    def postprocess(self, preds, image_size):
+        h, w = image_size
+        orig_size = torch.tensor([w, h])[None].to(self.device)
+        outputs = self.postprocessor(preds, orig_size, self.thresh_score)
+        outputs = self.filtering_elements(outputs[0])
+        results = LayoutParserSchema(**outputs)
+        return results
+    def filtering_elements(self, preds):
+        scores = preds["scores"]
+        boxes = preds["boxes"]
+        labels = preds["labels"]
+        category_elements = {
+            category: []
+            for category in self.label_mapper.values()
+            if category not in self.role
+        }
+        for box, score, label in zip(boxes, scores, labels):
+            category = self.label_mapper[label.item()]
+            role = None
+            if category in self.role:
+                role = category
+                category = "paragraphs"
+            category_elements[category].append(
+                {
+                    "box": box.astype(int).tolist(),
+                    "score": float(score),
+                    "role": role,
+                }
+            )
+        category_elements = filter_contained_rectangles_within_category(
+            category_elements
+        )
+        category_elements = filter_contained_rectangles_across_categories(
+            category_elements, "tables", "paragraphs"
+        )
+        return category_elements
+    def __call__(self, img):
+        ori_h, ori_w = img.shape[:2]
+        img_tensor = self.preprocess(img)
+        with torch.inference_mode():
+            preds = self.model(img_tensor)
+        results = self.postprocess(preds, (ori_h, ori_w))
+        vis = None
+        if self.visualize:
+            vis = layout_visualizer(
+                results,
+                img,
+            )
+        return results, vis

yomitoku/models/__init__.py ADDED Viewed

@@ -0,0 +1,9 @@
+from .dbnet_plus import DBNet
+from .parseq import PARSeq
+from .rtdetr import RTDETRv2
+__all__ = [
+    "DBNet",
+    "PARSeq",
+    "RTDETRv2",
+]