PyPI - pyxllib - Versions diffs - 0.3.197__py3-none-any.whl → 3.201.1__py3-none-any.whl - Mend

pyxllib 0.3.197py3-none-any.whl → 3.201.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (127) hide show

pyxllib/__init__.py +14 -21
pyxllib/algo/__init__.py +8 -8
pyxllib/algo/disjoint.py +54 -54
pyxllib/algo/geo.py +537 -541
pyxllib/algo/intervals.py +964 -964
pyxllib/algo/matcher.py +389 -389
pyxllib/algo/newbie.py +166 -166
pyxllib/algo/pupil.py +629 -629
pyxllib/algo/shapelylib.py +67 -67
pyxllib/algo/specialist.py +241 -241
pyxllib/algo/stat.py +494 -494
pyxllib/algo/treelib.py +145 -149
pyxllib/algo/unitlib.py +62 -66
pyxllib/autogui/__init__.py +5 -5
pyxllib/autogui/activewin.py +246 -246
pyxllib/autogui/all.py +9 -9
pyxllib/autogui/autogui.py +846 -852
pyxllib/autogui/uiautolib.py +362 -362
pyxllib/autogui/virtualkey.py +102 -102
pyxllib/autogui/wechat.py +827 -827
pyxllib/autogui/wechat_msg.py +421 -421
pyxllib/autogui/wxautolib.py +84 -84
pyxllib/cv/__init__.py +5 -5
pyxllib/cv/expert.py +267 -267
pyxllib/cv/imfile.py +159 -159
pyxllib/cv/imhash.py +39 -39
pyxllib/cv/pupil.py +9 -9
pyxllib/cv/rgbfmt.py +1525 -1525
pyxllib/cv/slidercaptcha.py +137 -137
pyxllib/cv/trackbartools.py +251 -251
pyxllib/cv/xlcvlib.py +1040 -1040
pyxllib/cv/xlpillib.py +423 -423
pyxllib/data/echarts.py +236 -240
pyxllib/data/jsonlib.py +85 -89
pyxllib/data/oss.py +72 -72
pyxllib/data/pglib.py +1111 -1127
pyxllib/data/sqlite.py +568 -568
pyxllib/data/sqllib.py +297 -297
pyxllib/ext/JLineViewer.py +505 -505
pyxllib/ext/__init__.py +6 -6
pyxllib/ext/demolib.py +251 -246
pyxllib/ext/drissionlib.py +277 -277
pyxllib/ext/kq5034lib.py +12 -12
pyxllib/ext/qt.py +449 -449
pyxllib/ext/robustprocfile.py +493 -497
pyxllib/ext/seleniumlib.py +76 -76
pyxllib/ext/tk.py +173 -173
pyxllib/ext/unixlib.py +821 -827
pyxllib/ext/utools.py +345 -351
pyxllib/ext/webhook.py +124 -119
pyxllib/ext/win32lib.py +40 -40
pyxllib/ext/wjxlib.py +91 -88
pyxllib/ext/wpsapi.py +124 -124
pyxllib/ext/xlwork.py +9 -9
pyxllib/ext/yuquelib.py +1110 -1105
pyxllib/file/__init__.py +17 -17
pyxllib/file/docxlib.py +757 -761
pyxllib/file/gitlib.py +309 -309
pyxllib/file/libreoffice.py +165 -165
pyxllib/file/movielib.py +144 -148
pyxllib/file/newbie.py +10 -10
pyxllib/file/onenotelib.py +1469 -1469
pyxllib/file/packlib/__init__.py +330 -330
pyxllib/file/packlib/zipfile.py +2441 -2441
pyxllib/file/pdflib.py +422 -426
pyxllib/file/pupil.py +185 -185
pyxllib/file/specialist/__init__.py +681 -685
pyxllib/file/specialist/dirlib.py +799 -799
pyxllib/file/specialist/download.py +193 -193
pyxllib/file/specialist/filelib.py +2825 -2829
pyxllib/file/xlsxlib.py +3122 -3131
pyxllib/file/xlsyncfile.py +341 -341
pyxllib/prog/__init__.py +5 -5
pyxllib/prog/cachetools.py +58 -64
pyxllib/prog/deprecatedlib.py +233 -233
pyxllib/prog/filelock.py +42 -42
pyxllib/prog/ipyexec.py +253 -253
pyxllib/prog/multiprogs.py +940 -940
pyxllib/prog/newbie.py +451 -451
pyxllib/prog/pupil.py +1208 -1197
pyxllib/prog/sitepackages.py +33 -33
pyxllib/prog/specialist/__init__.py +348 -391
pyxllib/prog/specialist/bc.py +203 -203
pyxllib/prog/specialist/browser.py +497 -497
pyxllib/prog/specialist/common.py +347 -347
pyxllib/prog/specialist/datetime.py +198 -198
pyxllib/prog/specialist/tictoc.py +240 -240
pyxllib/prog/specialist/xllog.py +180 -180
pyxllib/prog/xlosenv.py +110 -108
pyxllib/stdlib/__init__.py +17 -17
pyxllib/stdlib/tablepyxl/__init__.py +10 -10
pyxllib/stdlib/tablepyxl/style.py +303 -303
pyxllib/stdlib/tablepyxl/tablepyxl.py +130 -130
pyxllib/text/__init__.py +8 -8
pyxllib/text/ahocorasick.py +36 -39
pyxllib/text/airscript.js +754 -744
pyxllib/text/charclasslib.py +121 -121
pyxllib/text/jiebalib.py +267 -267
pyxllib/text/jinjalib.py +27 -32
pyxllib/text/jsa_ai_prompt.md +271 -271
pyxllib/text/jscode.py +922 -922
pyxllib/text/latex/__init__.py +158 -158
pyxllib/text/levenshtein.py +303 -303
pyxllib/text/nestenv.py +1215 -1215
pyxllib/text/newbie.py +300 -300
pyxllib/text/pupil/__init__.py +8 -8
pyxllib/text/pupil/common.py +1121 -1121
pyxllib/text/pupil/xlalign.py +326 -326
pyxllib/text/pycode.py +47 -47
pyxllib/text/specialist/__init__.py +8 -8
pyxllib/text/specialist/common.py +112 -112
pyxllib/text/specialist/ptag.py +186 -186
pyxllib/text/spellchecker.py +172 -172
pyxllib/text/templates/echart_base.html +10 -10
pyxllib/text/templates/highlight_code.html +16 -16
pyxllib/text/templates/latex_editor.html +102 -102
pyxllib/text/vbacode.py +17 -17
pyxllib/text/xmllib.py +741 -747
pyxllib/xl.py +42 -39
pyxllib/xlcv.py +17 -17
pyxllib-3.201.1.dist-info/METADATA +296 -0
pyxllib-3.201.1.dist-info/RECORD +125 -0
{pyxllib-0.3.197.dist-info → pyxllib-3.201.1.dist-info}/licenses/LICENSE +190 -190
pyxllib/ext/old.py +0 -663
pyxllib-0.3.197.dist-info/METADATA +0 -48
pyxllib-0.3.197.dist-info/RECORD +0 -126
{pyxllib-0.3.197.dist-info → pyxllib-3.201.1.dist-info}/WHEEL +0 -0

pyxllib/file/pdflib.py CHANGED Viewed

@@ -1,426 +1,422 @@
-#!/usr/bin/env python3
-# -*- coding: utf-8 -*-
-# @Author : 陈坤泽
-# @Email  : 877362867@qq.com
-# @Date   : 2020/06/02 16:06
-from pyxllib.prog.pupil import check_install_package
-check_install_package('fitz', 'PyMuPdf>=1.18.17')
-import json
-import os
-import pprint
-import re
-import fitz
-from pyxllib.prog.newbie import round_int, decode_bitflags
-from pyxllib.prog.pupil import DictTool, inject_members, dprint
-from pyxllib.prog.specialist import browser
-from pyxllib.algo.newbie import round_unit
-from pyxllib.prog.pupil import get_number_width
-from pyxllib.file.specialist import XlPath, writefile, get_etag
-from pyxllib.cv.expert import xlcv, xlpil
-from pyxlpr.data.labelme import LabelmeDict
-def __fitz():
-    print(fitz.__doc__)
-class FitzDoc:
-    """ 原名叫FitzPdf，但不一定是处理pdf，也可能是其他文档，所以改名 FitzDoc
-    """
-    def __init__(self, file):
-        self.src_file = XlPath(file)
-        self.doc = fitz.open(str(file))
-    def to_images(self, dst_dir=None, file_fmt='{filestem}_{number}.jpg', num_width=None, *,
-                  scale=1, start=1, fmt_onepage=False):
-        """ 将pdf转为若干页图片
-        :param dst_dir: 目标目录
-            默认情况下，只有一页pdf则存储到对应的pdf目录，多页则存储到同名子目录下
-            如果不想这样被智能控制，只要指定明确的dst即可
-        :param file_fmt: 后缀格式，包括修改导出的图片类型，注意要用 {} 占位符表示页码编号
-        :param num_width: 生成的每一页文件编号，使用的数字前导0域宽
-            默认根据pdf总页数来设置对应所用域宽
-            0表示不设域宽
-        :param scale: 对每页图片进行缩放，一般推荐都要设成2，导出的图片才清晰
-        :param start: 起始页码，一般建议从1开始比较符合常识直觉
-        :param fmt_onepage: 当pdf就只有一页的时候，是否还对导出的图片编号
-            默认只有一页的时候，进行优化，不增设后缀格式
-        :return: 返回转换完的图片名称清单
-        注：如果要导出单张图，可以用 FitzPdfPage.get_cv_image
-        """
-        # 1 基本参数计算
-        srcfile, doc = self.src_file, self.doc
-        filestem, n_page = srcfile.stem, doc.page_count
-        # 自动推导目标目录
-        if dst_dir is None:
-            dst_dir = XlPath.init(srcfile.stem, srcfile.parent) if n_page > 1 else XlPath(srcfile.parent)
-        os.makedirs(dst_dir, exist_ok=True)
-        # 域宽
-        num_width = num_width or get_number_width(n_page)  # 根据总页数计算需要的对齐域宽
-        # 2 导出图片
-        if fmt_onepage or n_page != 1:  # 多页的处理规则
-            res = []
-            for i in range(n_page):
-                im = self.load_page(i).get_cv_image(scale)
-                number = ('{:0' + str(num_width) + 'd}').format(i + start)  # 前面的括号不要删，这样才是完整的一个字符串来使用format
-                f = xlcv.write(im, XlPath.init(file_fmt.format(filestem=filestem, number=number), dst_dir))
-                res.append(f)
-            return res
-        else:
-            im = self.load_page(0).get_cv_image(scale)
-            return [xlcv.write(im, XlPath.init(srcfile.stem + os.path.splitext(file_fmt)[1], dst_dir))]
-    def to_labelmes(self, imfiles, opt='dict', *, views=(0, 0, 1, 0), scale=1, indent=None):
-        """ 生成图片对应的标注，常跟to_images配合使用 """
-        for i, imfile in enumerate(imfiles):
-            page = self.load_page(i)
-            lmdict = LabelmeDict.gen_data(imfile)
-            lmdict['shapes'] = page.get_labelme_shapes(opt, views=views, scale=scale)
-            imfile.with_suffix('.json').write(lmdict, indent=indent)
-    def to_docx(self, docx_file=None):
-        """ pdf转docx """
-        check_install_package('pdf2docx')
-        from pdf2docx import parse
-        pdf_file = self.src_file
-        if docx_file is None:
-            docx_file = pdf_file.with_suffix('.docx')
-        # 注意这里是日志显示进度，不是printf输出.
-        parse(str(pdf_file), str(docx_file))
-    def browser(self, opt='pdf'):
-        if opt == 'pdf':
-            f = self.src_file
-            browser(self.src_file)
-        elif opt == 'html':
-            ls = []
-            for i in range(self.page_count):
-                page = self.load_page(i)
-                ls.append(page.get_text('html'))
-            data = '\n'.join(ls)
-            etag = get_etag(data)
-            f = XlPath.init(etag, XlPath.tempdir(), suffix='.html')
-            f.write(data)
-            browser(f)
-        else:
-            raise ValueError(f'{opt}')
-        return f
-    def __getattr__(self, item):
-        return getattr(self.doc, item)
-class XlFitzPage(fitz.fitz.Page):
-    """ 对fitz.fitz.Page的扩展成员方法 """
-    def get_svg_image2(self, scale=1):
-        # svg 是一段表述性文本
-        if scale != 1:
-            txt = self.get_svg_image(matrix=fitz.Matrix(scale, scale))
-        else:
-            txt = self.get_svg_image()
-        return txt
-    def _get_png_data(self, scale=1):
-        # TODO 增加透明通道？
-        if scale != 1:
-            pix = self.get_pixmap(matrix=fitz.Matrix(scale, scale))  # 长宽放大到scale倍
-        else:
-            pix = self.get_pixmap()
-        return pix.tobytes()
-    def get_cv_image(self, scale=1):
-        return xlcv.read_from_buffer(self._get_png_data(scale), flags=1)
-    def get_pil_image(self, scale=1):
-        # TODO 可以优化，直接从内存数据转pil，不用这样先转cv再转pil
-        return xlpil.read_from_buffer(self._get_png_data(scale), flags=1)
-    def to_image(self, outfile, *, scale=1, if_exists=None):
-        """ 转成为文件 """
-        f = XlPath(outfile)
-        suffix = f.suffix.lower()
-        if suffix == '.svg':
-            content = self.get_svg_image()
-            f.write(content, if_exists=if_exists)
-        else:
-            im = self.get_cv_image(scale)
-            xlcv.write(im, if_exists=if_exists)
-    def get_labelme_shapes(self, opt='dict', *, views=1, scale=1):
-        """ 得到labelme版本的shapes标注信息
-        :param opt: get_text的参数，默认使用无字符集标注的精简的dict
-            也可以使用rawdict，带有字符集标注的数据
-        :param views: 若非list或者长度不足4，会补足
-            各位标记依次代表是否显示对应细粒度的标注：blocks、lines、spans、chars
-            默认只显示blocks
-            例如 (0, 0, 1, 0)，表示只显示spans的标注
-        :param scale: 是否需要对坐标按比例放大 （pdf经常放大两倍提取图片，则这里标注也要对应放大两倍）
-        【字典属性解释】
-        blocks:
-            number: int, 区块编号
-            type: 0表示文本行，1表示图片
-        lines:
-            wmode: 好像都是0，不知道啥东西
-            dir: [1, 0]，可能是文本方向吧
-        spans:
-            size: 字号
-            flags: 格式标记
-                1，superscript，上标
-                2，italic，斜体
-                4，serifed，有衬线。如果没开，对立面就是"sans"，无衬线。
-                8，monospaced，等距。对立面proportional，均衡。
-                16，bold，加粗
-            font：字体名称（直接用字符串赋值）
-            color：颜色
-            ascender：？
-            descender：？
-            origin：所在方格右上角坐标
-            text/chars: dict模式有text内容，rawdict有chars详细信息。我扩展的版本，rawdict也会有text属性。
-        char:
-            origin: 差不多是其所在方格的右上角坐标，同一行文本，其top位置是会对齐的
-            c: 字符内容
-        """
-        from pyxlpr.data.labelme import LabelmeDict
-        # 1 参数配置
-        if isinstance(views, int):
-            views = [views]
-        if len(views) < 4:
-            views += [0] * (4 - len(views))
-        shapes = []
-        page_dict = self.get_text(opt)
-        # 2 辅助函数
-        def add_shape(name, refdict, add_keys, drop_keys=('bbox',)):
-            """ 生成一个标注框 """
-            msgdict = {'category_name': name}
-            msgdict.update(add_keys)
-            DictTool.ior(msgdict, refdict)
-            DictTool.isub(msgdict, drop_keys)
-            bbox = [round_int(v * scale) for v in refdict['bbox']]
-            if 'size' in msgdict:
-                x = round_unit(msgdict['size'], 0.5)
-                msgdict['size'] = round_int(x) if (x * 10) % 10 < 1 else x  # 没有小数的时候，优先展示为11，而不是11.0
-            if 'color' in msgdict:
-                # 把color映射为直观的(r, g, b)
-                # 这个pdf解析器获取的color，不一定精确等于原值，可能会有偏差，小一个像素
-                v = msgdict['color']
-                msgdict['color'] = (v // 256 // 256, (v // 256) % 256, v % 256)
-            if 'origin' in msgdict:
-                msgdict['origin'] = [round_int(v) for v in msgdict['origin']]
-            sp = LabelmeDict.gen_shape(json.dumps(msgdict), bbox)
-            shapes.append(sp)
-        # 3 遍历获取标注数据
-        for block in page_dict['blocks']:
-            if block['type'] == 0:  # 普通的文本行
-                if views[0]:
-                    add_shape('text_block', block, {'n_lines': len(block['lines'])}, ['bbox', 'lines'])
-                for line in block['lines']:
-                    if views[1]:
-                        add_shape('line', line, {'n_spans': len(line['spans'])}, ['bbox', 'spans'])
-                    for span in line['spans']:
-                        if 'text' not in span and 'chars' in span:
-                            span['text'] = ''.join([x['c'] for x in span['chars']])
-                        if views[2]:
-                            add_shape('span', span, {'n_chars': len(span.get('text', ''))}, ['bbox', 'chars'])
-                        if views[3] and 'chars' in span:  # 最后层算法不太一样，这样写可以加速
-                            for char in span['chars']:
-                                add_shape('char', char, {}, ['bbox'])
-            elif block['type'] == 1:  # 应该是图片
-                add_shape('image', block, {'image_filesize': len(block['image'])}, ['bbox', 'image'])
-            else:
-                raise ValueError
-        return shapes
-    @classmethod
-    def parse_flags(cls, n):
-        """ 解析spans的flags参数明文含义 """
-        flags = decode_bitflags(n, ('superscript', 'italic', 'serifed', 'monospaced', 'bold'))
-        flags['sans'] = not flags['serifed']
-        flags['proportional'] = not flags['monospaced']
-        return flags
-    def browser(self, opt='html'):
-        if opt == 'html':
-            data = self.get_text('html')  # html、xhtml 可以转网页，虽然排版相对来说还是会乱一点
-            data = ''.join(data)
-            etag = get_etag(data)
-            f = XlPath.init(etag, XlPath.tempdir(), suffix='.html')
-            f.write(data)
-            browser(f)
-        else:
-            raise ValueError
-inject_members(XlFitzPage, fitz.fitz.Page)
-class DemoFitz:
-    """
-    安装： pip install PyMuPdf
-    使用： import fitz
-    官方文档： https://pymupdf.readthedocs.io/en/latest/intro/
-        demo： https://github.com/rk700/PyMuPDF/tree/master/demo
-        examples： https://github.com/rk700/PyMuPDF/tree/master/examples
-    """
-    def __init__(self, file):
-        self.doc = fitz.open(file)
-    def message(self):
-        """查看pdf文档一些基础信息"""
-        dprint(fitz.version)  # fitz模块的版本
-        dprint(self.doc.pageCount)  # pdf页数
-        dprint(self.doc._getXrefLength())  # 文档的对象总数
-    def getToC(self):
-        """获得书签目录"""
-        toc = self.doc.getToC()
-        browser(toc)
-    def setToC(self):
-        """设置书签目录
-        可以调层级、改名称、修改指向页码
-        """
-        toc = self.doc.getToC()
-        toc[1][1] = '改标题名称'
-        self.doc.setToC(toc)
-        file = XlPath('a.pdf', XlPath.tempdir()).to_str()
-        self.doc.save(file, garbage=4)
-        browser(file)
-    def setToC2(self):
-        """修改人教版教材的标签名"""
-        toc = self.doc.getToC()
-        newtoc = []
-        for i in range(len(toc)):
-            name = toc[i][1]
-            if '.' in name: continue
-            # m = re.search(r'\d+', name)
-            # if m: name = name.replace(m.group(), digits2chinese(int(m.group())))
-            m = re.search(r'([一二三四五六]年级).*?([上下])', name)
-            if i < len(toc) - 1:
-                pages = toc[i + 1][2] - toc[i][2] + 1
-            else:
-                pages = self.doc.pageCount - toc[i][2] + 1
-            toc[i][1] = m.group(1) + m.group(2) + '，' + str(pages)
-            newtoc.append(toc[i])
-        self.doc.setToC(newtoc)
-        file = writefile(b'', 'a.pdf', if_exists='replace')
-        self.doc.save(file, garbage=4)
-    def rearrange_pages(self):
-        """重新布局页面"""
-        self.doc.select([0, 0, 1])  # 第1页展示两次后，再跟第2页
-        file = writefile(b'', 'a.pdf', root=XlPath.tempdir(), if_exists='replace')
-        self.doc.save(file, garbage=4)  # 注意要设置garbage，否则文档并没有实际删除内容压缩文件大小
-        browser(file)
-    def page2png(self, page=0):
-        """ 查看单页渲染图片 """
-        page = self.doc.loadPage(page)  # 索引第i页，下标规律同py，支持-1索引最后页
-        # dprint(page.bound())  # 页面边界，x,y轴同图像处理中的常识定义，返回Rect(x0, y0, x1, y1)
-        pix = page.getPixmap(fitz.Matrix(2, 2))  # 获得页面的RGBA图像，Pixmap类型；还可以用page.getSVGimage()获得矢量图
-        # pix.writePNG('page-0.png')  # 将Pixmal
-        pngdata = pix.tobytes()  # 获png文件的bytes字节码
-        # print(len(pngdata))
-        # browser(pngdata, 'a.png')  # 用我的工具函数打开图片
-        return pngdata
-    def pagetext(self):
-        """单页上的文本"""
-        page = self.doc[0]
-        # 获得页面上的所有文本，还支持参数： html，dict，xml，xhtml，json
-        text = page.getText('text')
-        dprint(text)
-        # 获得页面上的所有文本（返回字典对象）
-        textdict = page.getText('dict')
-        textdict['blocks'] = textdict['blocks'][:-1]
-        browser(pprint.pformat(textdict))
-    def text(self):
-        """获得整份pdf的所有文本"""
-        return '\n'.join([page.getText('text') for page in self.doc])
-    def xrefstr(self):
-        """查看pdf文档的所有对象"""
-        xrefstr = []
-        n = self.doc._getXrefLength()
-        for i in range(1, n):  # 注意下标实际要从1卡开始
-            # 可以边遍历边删除，不影响下标位置，因为其本质只是去除关联引用而已
-            xrefstr.append(self.doc._getXrefString(i))
-        browser('\n'.join(xrefstr))
-    def page_add_ele(self):
-        """往页面添加元素
-        添加元素前后xrefstr的区别： https://paste.ubuntu.com/p/Dxhnzp4XJ2/
-        """
-        self.doc.select([0])
-        page = self.doc.loadPage(0)
-        # page.insertText(fitz.Point(100, 200), 'test\ntest')
-        file = str(XlPath.tempdir() / 'a.pdf')
-        dprint(file)
-        self.doc.save(file, garbage=4)
-        browser(file)
-def __pdfminer():
-    """ pdfminer的实验代码也先放这里
-    !pip install pdfminer.six
-    """
-    import pdfminer
-    print(pdfminer.__version__)
-    # 20201018
-class PdfMiner:
-    @classmethod
-    def to_html(cls, pdf_file):
-        """ 相比fitz，pdfminer能正常提取出下划线
-        文本重叠比fitz更严重，整体来说其实更不好用~~
-        """
-        from io import StringIO
-        from pdfminer.high_level import extract_text_to_fp
-        from pdfminer.layout import LAParams
-        output_string = StringIO()
-        with open(str(pdf_file)) as fin:
-            extract_text_to_fp(fin, output_string, laparams=LAParams(),
-                               output_type='html', codec=None)
-        # 打开浏览器查看重建的html效果
-        f = pdf_file.with_suffix('.html')
-        f.write(output_string.getvalue())
-        browser(f)
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+# @Author : 陈坤泽
+# @Email  : 877362867@qq.com
+# @Date   : 2020/06/02 16:06
+import json
+import os
+import pprint
+import re
+import fitz
+from pyxllib.prog.newbie import round_int, decode_bitflags
+from pyxllib.prog.pupil import DictTool, inject_members, dprint
+from pyxllib.prog.specialist import browser
+from pyxllib.algo.newbie import round_unit
+from pyxllib.prog.pupil import get_number_width
+from pyxllib.file.specialist import XlPath, writefile, get_etag
+from pyxllib.cv.expert import xlcv, xlpil
+from pyxlpr.data.labelme import LabelmeDict
+def __fitz():
+    print(fitz.__doc__)
+class FitzDoc:
+    """ 原名叫FitzPdf，但不一定是处理pdf，也可能是其他文档，所以改名 FitzDoc
+    """
+    def __init__(self, file):
+        self.src_file = XlPath(file)
+        self.doc = fitz.open(str(file))
+    def to_images(self, dst_dir=None, file_fmt='{filestem}_{number}.jpg', num_width=None, *,
+                  scale=1, start=1, fmt_onepage=False):
+        """ 将pdf转为若干页图片
+        :param dst_dir: 目标目录
+            默认情况下，只有一页pdf则存储到对应的pdf目录，多页则存储到同名子目录下
+            如果不想这样被智能控制，只要指定明确的dst即可
+        :param file_fmt: 后缀格式，包括修改导出的图片类型，注意要用 {} 占位符表示页码编号
+        :param num_width: 生成的每一页文件编号，使用的数字前导0域宽
+            默认根据pdf总页数来设置对应所用域宽
+            0表示不设域宽
+        :param scale: 对每页图片进行缩放，一般推荐都要设成2，导出的图片才清晰
+        :param start: 起始页码，一般建议从1开始比较符合常识直觉
+        :param fmt_onepage: 当pdf就只有一页的时候，是否还对导出的图片编号
+            默认只有一页的时候，进行优化，不增设后缀格式
+        :return: 返回转换完的图片名称清单
+        注：如果要导出单张图，可以用 FitzPdfPage.get_cv_image
+        """
+        # 1 基本参数计算
+        srcfile, doc = self.src_file, self.doc
+        filestem, n_page = srcfile.stem, doc.page_count
+        # 自动推导目标目录
+        if dst_dir is None:
+            dst_dir = XlPath.init(srcfile.stem, srcfile.parent) if n_page > 1 else XlPath(srcfile.parent)
+        os.makedirs(dst_dir, exist_ok=True)
+        # 域宽
+        num_width = num_width or get_number_width(n_page)  # 根据总页数计算需要的对齐域宽
+        # 2 导出图片
+        if fmt_onepage or n_page != 1:  # 多页的处理规则
+            res = []
+            for i in range(n_page):
+                im = self.load_page(i).get_cv_image(scale)
+                number = ('{:0' + str(num_width) + 'd}').format(i + start)  # 前面的括号不要删，这样才是完整的一个字符串来使用format
+                f = xlcv.write(im, XlPath.init(file_fmt.format(filestem=filestem, number=number), dst_dir))
+                res.append(f)
+            return res
+        else:
+            im = self.load_page(0).get_cv_image(scale)
+            return [xlcv.write(im, XlPath.init(srcfile.stem + os.path.splitext(file_fmt)[1], dst_dir))]
+    def to_labelmes(self, imfiles, opt='dict', *, views=(0, 0, 1, 0), scale=1, indent=None):
+        """ 生成图片对应的标注，常跟to_images配合使用 """
+        for i, imfile in enumerate(imfiles):
+            page = self.load_page(i)
+            lmdict = LabelmeDict.gen_data(imfile)
+            lmdict['shapes'] = page.get_labelme_shapes(opt, views=views, scale=scale)
+            imfile.with_suffix('.json').write(lmdict, indent=indent)
+    def to_docx(self, docx_file=None):
+        """ pdf转docx """
+        from pdf2docx import parse
+        pdf_file = self.src_file
+        if docx_file is None:
+            docx_file = pdf_file.with_suffix('.docx')
+        # 注意这里是日志显示进度，不是printf输出.
+        parse(str(pdf_file), str(docx_file))
+    def browser(self, opt='pdf'):
+        if opt == 'pdf':
+            f = self.src_file
+            browser(self.src_file)
+        elif opt == 'html':
+            ls = []
+            for i in range(self.page_count):
+                page = self.load_page(i)
+                ls.append(page.get_text('html'))
+            data = '\n'.join(ls)
+            etag = get_etag(data)
+            f = XlPath.init(etag, XlPath.tempdir(), suffix='.html')
+            f.write(data)
+            browser(f)
+        else:
+            raise ValueError(f'{opt}')
+        return f
+    def __getattr__(self, item):
+        return getattr(self.doc, item)
+class XlFitzPage(fitz.fitz.Page):
+    """ 对fitz.fitz.Page的扩展成员方法 """
+    def get_svg_image2(self, scale=1):
+        # svg 是一段表述性文本
+        if scale != 1:
+            txt = self.get_svg_image(matrix=fitz.Matrix(scale, scale))
+        else:
+            txt = self.get_svg_image()
+        return txt
+    def _get_png_data(self, scale=1):
+        # TODO 增加透明通道？
+        if scale != 1:
+            pix = self.get_pixmap(matrix=fitz.Matrix(scale, scale))  # 长宽放大到scale倍
+        else:
+            pix = self.get_pixmap()
+        return pix.tobytes()
+    def get_cv_image(self, scale=1):
+        return xlcv.read_from_buffer(self._get_png_data(scale), flags=1)
+    def get_pil_image(self, scale=1):
+        # TODO 可以优化，直接从内存数据转pil，不用这样先转cv再转pil
+        return xlpil.read_from_buffer(self._get_png_data(scale), flags=1)
+    def to_image(self, outfile, *, scale=1, if_exists=None):
+        """ 转成为文件 """
+        f = XlPath(outfile)
+        suffix = f.suffix.lower()
+        if suffix == '.svg':
+            content = self.get_svg_image()
+            f.write(content, if_exists=if_exists)
+        else:
+            im = self.get_cv_image(scale)
+            xlcv.write(im, if_exists=if_exists)
+    def get_labelme_shapes(self, opt='dict', *, views=1, scale=1):
+        """ 得到labelme版本的shapes标注信息
+        :param opt: get_text的参数，默认使用无字符集标注的精简的dict
+            也可以使用rawdict，带有字符集标注的数据
+        :param views: 若非list或者长度不足4，会补足
+            各位标记依次代表是否显示对应细粒度的标注：blocks、lines、spans、chars
+            默认只显示blocks
+            例如 (0, 0, 1, 0)，表示只显示spans的标注
+        :param scale: 是否需要对坐标按比例放大 （pdf经常放大两倍提取图片，则这里标注也要对应放大两倍）
+        【字典属性解释】
+        blocks:
+            number: int, 区块编号
+            type: 0表示文本行，1表示图片
+        lines:
+            wmode: 好像都是0，不知道啥东西
+            dir: [1, 0]，可能是文本方向吧
+        spans:
+            size: 字号
+            flags: 格式标记
+                1，superscript，上标
+                2，italic，斜体
+                4，serifed，有衬线。如果没开，对立面就是"sans"，无衬线。
+                8，monospaced，等距。对立面proportional，均衡。
+                16，bold，加粗
+            font：字体名称（直接用字符串赋值）
+            color：颜色
+            ascender：？
+            descender：？
+            origin：所在方格右上角坐标
+            text/chars: dict模式有text内容，rawdict有chars详细信息。我扩展的版本，rawdict也会有text属性。
+        char:
+            origin: 差不多是其所在方格的右上角坐标，同一行文本，其top位置是会对齐的
+            c: 字符内容
+        """
+        from pyxlpr.data.labelme import LabelmeDict
+        # 1 参数配置
+        if isinstance(views, int):
+            views = [views]
+        if len(views) < 4:
+            views += [0] * (4 - len(views))
+        shapes = []
+        page_dict = self.get_text(opt)
+        # 2 辅助函数
+        def add_shape(name, refdict, add_keys, drop_keys=('bbox',)):
+            """ 生成一个标注框 """
+            msgdict = {'category_name': name}
+            msgdict.update(add_keys)
+            DictTool.ior(msgdict, refdict)
+            DictTool.isub(msgdict, drop_keys)
+            bbox = [round_int(v * scale) for v in refdict['bbox']]
+            if 'size' in msgdict:
+                x = round_unit(msgdict['size'], 0.5)
+                msgdict['size'] = round_int(x) if (x * 10) % 10 < 1 else x  # 没有小数的时候，优先展示为11，而不是11.0
+            if 'color' in msgdict:
+                # 把color映射为直观的(r, g, b)
+                # 这个pdf解析器获取的color，不一定精确等于原值，可能会有偏差，小一个像素
+                v = msgdict['color']
+                msgdict['color'] = (v // 256 // 256, (v // 256) % 256, v % 256)
+            if 'origin' in msgdict:
+                msgdict['origin'] = [round_int(v) for v in msgdict['origin']]
+            sp = LabelmeDict.gen_shape(json.dumps(msgdict), bbox)
+            shapes.append(sp)
+        # 3 遍历获取标注数据
+        for block in page_dict['blocks']:
+            if block['type'] == 0:  # 普通的文本行
+                if views[0]:
+                    add_shape('text_block', block, {'n_lines': len(block['lines'])}, ['bbox', 'lines'])
+                for line in block['lines']:
+                    if views[1]:
+                        add_shape('line', line, {'n_spans': len(line['spans'])}, ['bbox', 'spans'])
+                    for span in line['spans']:
+                        if 'text' not in span and 'chars' in span:
+                            span['text'] = ''.join([x['c'] for x in span['chars']])
+                        if views[2]:
+                            add_shape('span', span, {'n_chars': len(span.get('text', ''))}, ['bbox', 'chars'])
+                        if views[3] and 'chars' in span:  # 最后层算法不太一样，这样写可以加速
+                            for char in span['chars']:
+                                add_shape('char', char, {}, ['bbox'])
+            elif block['type'] == 1:  # 应该是图片
+                add_shape('image', block, {'image_filesize': len(block['image'])}, ['bbox', 'image'])
+            else:
+                raise ValueError
+        return shapes
+    @classmethod
+    def parse_flags(cls, n):
+        """ 解析spans的flags参数明文含义 """
+        flags = decode_bitflags(n, ('superscript', 'italic', 'serifed', 'monospaced', 'bold'))
+        flags['sans'] = not flags['serifed']
+        flags['proportional'] = not flags['monospaced']
+        return flags
+    def browser(self, opt='html'):
+        if opt == 'html':
+            data = self.get_text('html')  # html、xhtml 可以转网页，虽然排版相对来说还是会乱一点
+            data = ''.join(data)
+            etag = get_etag(data)
+            f = XlPath.init(etag, XlPath.tempdir(), suffix='.html')
+            f.write(data)
+            browser(f)
+        else:
+            raise ValueError
+inject_members(XlFitzPage, fitz.fitz.Page)
+class DemoFitz:
+    """
+    安装： pip install PyMuPdf
+    使用： import fitz
+    官方文档： https://pymupdf.readthedocs.io/en/latest/intro/
+        demo： https://github.com/rk700/PyMuPDF/tree/master/demo
+        examples： https://github.com/rk700/PyMuPDF/tree/master/examples
+    """
+    def __init__(self, file):
+        self.doc = fitz.open(file)
+    def message(self):
+        """查看pdf文档一些基础信息"""
+        dprint(fitz.version)  # fitz模块的版本
+        dprint(self.doc.pageCount)  # pdf页数
+        dprint(self.doc._getXrefLength())  # 文档的对象总数
+    def getToC(self):
+        """获得书签目录"""
+        toc = self.doc.getToC()
+        browser(toc)
+    def setToC(self):
+        """设置书签目录
+        可以调层级、改名称、修改指向页码
+        """
+        toc = self.doc.getToC()
+        toc[1][1] = '改标题名称'
+        self.doc.setToC(toc)
+        file = XlPath('a.pdf', XlPath.tempdir()).to_str()
+        self.doc.save(file, garbage=4)
+        browser(file)
+    def setToC2(self):
+        """修改人教版教材的标签名"""
+        toc = self.doc.getToC()
+        newtoc = []
+        for i in range(len(toc)):
+            name = toc[i][1]
+            if '.' in name: continue
+            # m = re.search(r'\d+', name)
+            # if m: name = name.replace(m.group(), digits2chinese(int(m.group())))
+            m = re.search(r'([一二三四五六]年级).*?([上下])', name)
+            if i < len(toc) - 1:
+                pages = toc[i + 1][2] - toc[i][2] + 1
+            else:
+                pages = self.doc.pageCount - toc[i][2] + 1
+            toc[i][1] = m.group(1) + m.group(2) + '，' + str(pages)
+            newtoc.append(toc[i])
+        self.doc.setToC(newtoc)
+        file = writefile(b'', 'a.pdf', if_exists='replace')
+        self.doc.save(file, garbage=4)
+    def rearrange_pages(self):
+        """重新布局页面"""
+        self.doc.select([0, 0, 1])  # 第1页展示两次后，再跟第2页
+        file = writefile(b'', 'a.pdf', root=XlPath.tempdir(), if_exists='replace')
+        self.doc.save(file, garbage=4)  # 注意要设置garbage，否则文档并没有实际删除内容压缩文件大小
+        browser(file)
+    def page2png(self, page=0):
+        """ 查看单页渲染图片 """
+        page = self.doc.loadPage(page)  # 索引第i页，下标规律同py，支持-1索引最后页
+        # dprint(page.bound())  # 页面边界，x,y轴同图像处理中的常识定义，返回Rect(x0, y0, x1, y1)
+        pix = page.getPixmap(fitz.Matrix(2, 2))  # 获得页面的RGBA图像，Pixmap类型；还可以用page.getSVGimage()获得矢量图
+        # pix.writePNG('page-0.png')  # 将Pixmal
+        pngdata = pix.tobytes()  # 获png文件的bytes字节码
+        # print(len(pngdata))
+        # browser(pngdata, 'a.png')  # 用我的工具函数打开图片
+        return pngdata
+    def pagetext(self):
+        """单页上的文本"""
+        page = self.doc[0]
+        # 获得页面上的所有文本，还支持参数： html，dict，xml，xhtml，json
+        text = page.getText('text')
+        dprint(text)
+        # 获得页面上的所有文本（返回字典对象）
+        textdict = page.getText('dict')
+        textdict['blocks'] = textdict['blocks'][:-1]
+        browser(pprint.pformat(textdict))
+    def text(self):
+        """获得整份pdf的所有文本"""
+        return '\n'.join([page.getText('text') for page in self.doc])
+    def xrefstr(self):
+        """查看pdf文档的所有对象"""
+        xrefstr = []
+        n = self.doc._getXrefLength()
+        for i in range(1, n):  # 注意下标实际要从1卡开始
+            # 可以边遍历边删除，不影响下标位置，因为其本质只是去除关联引用而已
+            xrefstr.append(self.doc._getXrefString(i))
+        browser('\n'.join(xrefstr))
+    def page_add_ele(self):
+        """往页面添加元素
+        添加元素前后xrefstr的区别： https://paste.ubuntu.com/p/Dxhnzp4XJ2/
+        """
+        self.doc.select([0])
+        page = self.doc.loadPage(0)
+        # page.insertText(fitz.Point(100, 200), 'test\ntest')
+        file = str(XlPath.tempdir() / 'a.pdf')
+        dprint(file)
+        self.doc.save(file, garbage=4)
+        browser(file)
+def __pdfminer():
+    """ pdfminer的实验代码也先放这里
+    !pip install pdfminer.six
+    """
+    import pdfminer
+    print(pdfminer.__version__)
+    # 20201018
+class PdfMiner:
+    @classmethod
+    def to_html(cls, pdf_file):
+        """ 相比fitz，pdfminer能正常提取出下划线
+        文本重叠比fitz更严重，整体来说其实更不好用~~
+        """
+        from io import StringIO
+        from pdfminer.high_level import extract_text_to_fp
+        from pdfminer.layout import LAParams
+        output_string = StringIO()
+        with open(str(pdf_file)) as fin:
+            extract_text_to_fp(fin, output_string, laparams=LAParams(),
+                               output_type='html', codec=None)
+        # 打开浏览器查看重建的html效果
+        f = pdf_file.with_suffix('.html')
+        f.write(output_string.getvalue())
+        browser(f)

pyxllib 0.3.197__py3-none-any.whl → 3.201.1__py3-none-any.whl

pyxllib 0.3.197py3-none-any.whl → 3.201.1py3-none-any.whl