PyPI - hos-m2f - Versions diffs - 0.5.3__py3-none-any.whl → 0.5.5__py3-none-any.whl - Mend

hos-m2f 0.5.3py3-none-any.whl → 0.5.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

hos_m2f/cli/__init__.py +1 -1
hos_m2f/converters/md_to_docx.py +172 -41
hos_m2f/converters/md_to_epub.py +37 -77
hos_m2f/converters/md_to_html.py +2 -14
hos_m2f/converters/md_to_json.py +40 -20
hos_m2f/converters/md_to_latex.py +63 -0
hos_m2f/converters/md_to_xml.py +40 -20
hos_m2f/converters/pdf_to_md.py +120 -0
{hos_m2f-0.5.3.dist-info → hos_m2f-0.5.5.dist-info}/METADATA +1 -1
hos_m2f-0.5.5.dist-info/RECORD +26 -0
{hos_m2f-0.5.3.dist-info → hos_m2f-0.5.5.dist-info}/entry_points.txt +1 -0
{hos_m2f-0.5.3.dist-info → hos_m2f-0.5.5.dist-info}/top_level.txt +1 -0
tests/__init__.py +1 -0
tests/test_converters.py +179 -0
tests/test_latex.py +182 -0
tests/test_modes.py +202 -0
hos_m2f-0.5.3.dist-info/RECORD +0 -20
{hos_m2f-0.5.3.dist-info → hos_m2f-0.5.5.dist-info}/WHEEL +0 -0

hos_m2f/converters/pdf_to_md.py ADDED Viewed

@@ -0,0 +1,120 @@
+"""PDF到Markdown格式转换器"""
+from typing import Any, Optional, Dict
+from hos_m2f.converters.base_converter import BaseConverter
+# 延迟导入PyPDF2
+pypdf2_available = False
+PdfReader = None
+def _check_pypdf2():
+    """检查PyPDF2是否可用"""
+    global pypdf2_available, PdfReader
+    if not pypdf2_available:
+        try:
+            from PyPDF2 import PdfReader
+            pypdf2_available = True
+        except ImportError as e:
+            print(f"Warning: PyPDF2 not available: {e}")
+            print("PDF to Markdown conversion is disabled.")
+class PDFToMDConverter(BaseConverter):
+    """PDF到Markdown格式转换器"""
+    def convert(self, input_content: bytes, options: Optional[Dict[str, Any]] = None) -> bytes:
+        """将PDF转换为Markdown
+        Args:
+            input_content: PDF文件的二进制数据
+            options: 转换选项
+        Returns:
+            bytes: Markdown文件的二进制数据
+        """
+        # 检查PyPDF2是否可用
+        _check_pypdf2()
+        if not pypdf2_available:
+            raise ImportError("PyPDF2 is not available. PDF to Markdown conversion is disabled.")
+        if options is None:
+            options = {}
+        # 解析PDF内容
+        markdown_content = self._parse_pdf(input_content, options)
+        return markdown_content.encode('utf-8')
+    def _parse_pdf(self, pdf_content: bytes, options: Dict[str, Any]) -> str:
+        """解析PDF内容并转换为Markdown"""
+        import io
+        # 创建PDF阅读器
+        pdf_reader = PdfReader(io.BytesIO(pdf_content))
+        # 提取文本
+        text_content = []
+        for page_num in range(len(pdf_reader.pages)):
+            page = pdf_reader.pages[page_num]
+            text = page.extract_text()
+            if text:
+                text_content.append(text)
+        # 合并文本
+        full_text = '\n\n'.join(text_content)
+        # 转换为Markdown
+        markdown_content = self._text_to_markdown(full_text, options)
+        return markdown_content
+    def _text_to_markdown(self, text: str, options: Dict[str, Any]) -> str:
+        """将纯文本转换为Markdown"""
+        import re
+        # 分割行
+        lines = text.split('\n')
+        # 处理标题
+        markdown_lines = []
+        for line in lines:
+            line = line.strip()
+            if not line:
+                markdown_lines.append('')
+                continue
+            # 简单的标题识别
+            # 假设以数字开头的行可能是标题
+            if re.match(r'^\d+\.', line):
+                # 检查数字级别
+                match = re.match(r'^(\d+)\.', line)
+                if match:
+                    level = len(match.group(1).split('.'))
+                    if level <= 6:
+                        markdown_lines.append(f'{'#' * level} {line}')
+                        continue
+            # 检查是否是大写标题
+            if line.isupper() and len(line) < 50:
+                markdown_lines.append(f'## {line}')
+                continue
+            # 普通行
+            markdown_lines.append(line)
+        # 合并行
+        markdown_content = '\n'.join(markdown_lines)
+        # 处理列表
+        markdown_content = re.sub(r'^\s*\-\s(.*)$', r'* \1', markdown_content, flags=re.MULTILINE)
+        markdown_content = re.sub(r'^\s*\*\s(.*)$', r'* \1', markdown_content, flags=re.MULTILINE)
+        # 处理粗体
+        markdown_content = re.sub(r'\b([A-Z]{3,})\b', r'**\1**', markdown_content)
+        return markdown_content
+    def get_supported_formats(self) -> tuple:
+        """获取支持的格式"""
+        return ('pdf', 'md')

{hos_m2f-0.5.3.dist-info → hos_m2f-0.5.5.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: hos-m2f
-Version: 0.5.3
+Version: 0.5.5
 Summary: HOS-M2F: Markdown to Industry Standard Format Compiler Engine
 Author: HOS Team
 Author-email: team@hos-m2f.com

hos_m2f-0.5.5.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,26 @@
+hos_m2f/__init__.py,sha256=v4k4TbKzPb3nbzgKJHaID3QTSpmTvAsGVHZ-poa870I,178
+hos_m2f/cli/__init__.py,sha256=9Ljh6fmOOFYD39fnew21icQYnIW7sElBo2qWCUNV9KM,57
+hos_m2f/cli/cli.py,sha256=0bWtYmOoNE8h_rrBlwS-4yJwIRnRTtuBx3DWnMkZ4Qo,11920
+hos_m2f/converters/__init__.py,sha256=d88A1sTrQsoMzrTipg7jKTWfI83GJzlRFVFNibajeag,971
+hos_m2f/converters/base_converter.py,sha256=4xqcAFMT82va6VesgM_HybUPIpP77x0DrQSYzb1jf28,696
+hos_m2f/converters/docx_to_md.py,sha256=_HBp3TOD9ZkTFhHR_f3ObLlpDcv0tnSPjPfeGxuvhjM,3064
+hos_m2f/converters/epub_to_md.py,sha256=cFfHmK4IrJKwzEWVE3ue7Jw8tBfWu1q7wG9o7oMf4Pw,4612
+hos_m2f/converters/html_to_md.py,sha256=26GqdynSxKKO2NTxPKgfFs9bTuisLaEIJdBhz4CJ5Eg,4487
+hos_m2f/converters/json_to_md.py,sha256=jeLBQ3jTkgA5a2Kr2gsOPjZB-D4PZxumciFHbyPKNmc,3670
+hos_m2f/converters/md_to_docx.py,sha256=GFAAQppSiCff7pkDAPEmvuoj_f4DMzNWHsbv-9cbqmU,12248
+hos_m2f/converters/md_to_epub.py,sha256=wNoniOSgIz7qiuIagJzqsF6f4pu_HLUigq-w0a_HoFg,2572
+hos_m2f/converters/md_to_html.py,sha256=Pn5K6_QiCdasK1M3hdyr4jlTzzu3OpQLJ-wznGiomPo,2502
+hos_m2f/converters/md_to_json.py,sha256=4VzUQFQ8nStmqm7td6MOFKji25hSiydMZhVJcsRHdYU,11246
+hos_m2f/converters/md_to_latex.py,sha256=7Fra7f984XLLWJTSbjPJP3ljSUldvpc2sqF2QyyPUJg,2348
+hos_m2f/converters/md_to_xml.py,sha256=ARuf4rEX4Of-VdGJI45lAejJV8OmtlHQMK8rltzg6B0,14217
+hos_m2f/converters/pdf_to_md.py,sha256=CgKrvv3CWc6H94nNrDO5nLIegttDzokDpoP2E2oSmEs,3851
+hos_m2f/converters/xml_to_md.py,sha256=zOkaEaSZdvyHag05kIHiWF4VyGMMjfmWmBllBpzwJ4E,4051
+tests/__init__.py,sha256=q1Fh8atmZO-c9dA8JDMvlWaIZxlwABwe_HgNgFNDKJc,16
+tests/test_converters.py,sha256=0sAG1fLR0UjJIWzlKWBR2QU7yl8a8LP8NwwSaU1TI5E,5150
+tests/test_latex.py,sha256=-KCCYKRDu6RoI3gOt0HTtExsW2IJ6KoNfIWeocbdFyY,6619
+tests/test_modes.py,sha256=FFZN1cp4sUJUR5fjbZXo2z-Z4Q5akCRBmSIiR7MCdVA,5887
+hos_m2f-0.5.5.dist-info/METADATA,sha256=qzJMupv3Rq2KQqfw2sJb025gy5nSzJOq6kjuyvqCeXc,1764
+hos_m2f-0.5.5.dist-info/WHEEL,sha256=wUyA8OaulRlbfwMtmQsvNngGrxQHAvkKcvRmdizlJi0,92
+hos_m2f-0.5.5.dist-info/entry_points.txt,sha256=1opnVMOGIufdlQMvWG_e-oTUS0Yca5ysnFKhmYvBmTM,76
+hos_m2f-0.5.5.dist-info/top_level.txt,sha256=EOB5321A6FNFviV_29qnjHtmLG-F6peX7v5s9Rw96V0,14
+hos_m2f-0.5.5.dist-info/RECORD,,

{hos_m2f-0.5.3.dist-info → hos_m2f-0.5.5.dist-info}/entry_points.txt RENAMED Viewed

@@ -1,2 +1,3 @@
 [console_scripts]
+hos = hos_m2f.cli.cli:main
 hos-m2f = hos_m2f.cli.cli:main

{hos_m2f-0.5.3.dist-info → hos_m2f-0.5.5.dist-info}/top_level.txt RENAMED Viewed

	@@ -1 +1,2 @@
1 1	hos_m2f
2	+ tests

tests/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ """测试包"""

tests/test_converters.py ADDED Viewed

@@ -0,0 +1,179 @@
+"""测试转换器模块"""
+import unittest
+import os
+import tempfile
+from hos_m2f.converters.md_to_docx import MDToDOCXConverter
+from hos_m2f.converters.md_to_html import MDToHTMLConverter
+from hos_m2f.converters.md_to_json import MDToJSONConverter
+from hos_m2f.converters.md_to_xml import MDToXMLConverter
+from hos_m2f.converters.md_to_epub import MDToEPUBConverter
+class TestConverters(unittest.TestCase):
+    """测试转换器"""
+    def setUp(self):
+        """设置测试环境"""
+        # 创建测试用的Markdown内容
+        self.test_content = """
+# 测试文档
+这是一个测试文档，用于测试各种格式转换器。
+## 章节1
+这是章节1的内容。
+### 子章节1.1
+这是子章节1.1的内容。
+## 章节2
+这是章节2的内容。
+### 表格测试
+| 列1 | 列2 | 列3 |
+| --- | --- | --- |
+| 行1 | 行1 | 行1 |
+| 行2 | 行2 | 行2 |
+### Mermaid图表测试
+```mermaid
+graph TD
+    A[开始] --> B[处理]
+    B --> C[结束]
+```
+### 链接测试
+[百度](https://www.baidu.com)
+### 图片测试
+![测试图片](https://example.com/test.jpg)
+### 格式化测试
+*斜体文本*
+**粗体文本**
+`代码`
+```python
+print("Hello, world!")
+```
+        """.strip()
+    def test_md_to_docx(self):
+        """测试Markdown到DOCX转换"""
+        converter = MDToDOCXConverter()
+        result = converter.convert(self.test_content)
+        self.assertIsInstance(result, bytes)
+        self.assertGreater(len(result), 0)
+        # 保存为临时文件，以便手动检查
+        with tempfile.NamedTemporaryFile(suffix=".docx", delete=False) as tmp:
+            tmp.write(result)
+            tmp_path = tmp.name
+        try:
+            # 验证文件存在且大小大于0
+            self.assertTrue(os.path.exists(tmp_path))
+            self.assertGreater(os.path.getsize(tmp_path), 0)
+        finally:
+            # 清理临时文件
+            if os.path.exists(tmp_path):
+                os.unlink(tmp_path)
+    def test_md_to_html(self):
+        """测试Markdown到HTML转换"""
+        converter = MDToHTMLConverter()
+        result = converter.convert(self.test_content)
+        self.assertIsInstance(result, bytes)
+        self.assertGreater(len(result), 0)
+        # 保存为临时文件，以便手动检查
+        with tempfile.NamedTemporaryFile(suffix=".html", delete=False) as tmp:
+            tmp.write(result)
+            tmp_path = tmp.name
+        try:
+            # 验证文件存在且大小大于0
+            self.assertTrue(os.path.exists(tmp_path))
+            self.assertGreater(os.path.getsize(tmp_path), 0)
+        finally:
+            # 清理临时文件
+            if os.path.exists(tmp_path):
+                os.unlink(tmp_path)
+    def test_md_to_json(self):
+        """测试Markdown到JSON转换"""
+        converter = MDToJSONConverter()
+        result = converter.convert(self.test_content)
+        self.assertIsInstance(result, bytes)
+        self.assertGreater(len(result), 0)
+        # 保存为临时文件，以便手动检查
+        with tempfile.NamedTemporaryFile(suffix=".json", delete=False) as tmp:
+            tmp.write(result)
+            tmp_path = tmp.name
+        try:
+            # 验证文件存在且大小大于0
+            self.assertTrue(os.path.exists(tmp_path))
+            self.assertGreater(os.path.getsize(tmp_path), 0)
+        finally:
+            # 清理临时文件
+            if os.path.exists(tmp_path):
+                os.unlink(tmp_path)
+    def test_md_to_xml(self):
+        """测试Markdown到XML转换"""
+        converter = MDToXMLConverter()
+        result = converter.convert(self.test_content)
+        self.assertIsInstance(result, bytes)
+        self.assertGreater(len(result), 0)
+        # 保存为临时文件，以便手动检查
+        with tempfile.NamedTemporaryFile(suffix=".xml", delete=False) as tmp:
+            tmp.write(result)
+            tmp_path = tmp.name
+        try:
+            # 验证文件存在且大小大于0
+            self.assertTrue(os.path.exists(tmp_path))
+            self.assertGreater(os.path.getsize(tmp_path), 0)
+        finally:
+            # 清理临时文件
+            if os.path.exists(tmp_path):
+                os.unlink(tmp_path)
+    def test_md_to_epub(self):
+        """测试Markdown到EPUB转换"""
+        converter = MDToEPUBConverter()
+        result = converter.convert(self.test_content)
+        self.assertIsInstance(result, bytes)
+        self.assertGreater(len(result), 0)
+        # 保存为临时文件，以便手动检查
+        with tempfile.NamedTemporaryFile(suffix=".epub", delete=False) as tmp:
+            tmp.write(result)
+            tmp_path = tmp.name
+        try:
+            # 验证文件存在且大小大于0
+            self.assertTrue(os.path.exists(tmp_path))
+            self.assertGreater(os.path.getsize(tmp_path), 0)
+        finally:
+            # 清理临时文件
+            if os.path.exists(tmp_path):
+                os.unlink(tmp_path)
+if __name__ == '__main__':
+    unittest.main()

tests/test_latex.py ADDED Viewed

@@ -0,0 +1,182 @@
+"""测试LaTeX渲染器和转换器"""
+import unittest
+import os
+import tempfile
+from hos_m2f.renderers.latex_renderer import LaTeXRenderer
+from hos_m2f.converters.md_to_latex import MDToLaTeXConverter
+class TestLaTeX(unittest.TestCase):
+    """测试LaTeX渲染器和转换器"""
+    def setUp(self):
+        """设置测试环境"""
+        # 创建测试用的Markdown内容
+        self.test_content = """
+# 测试文档
+## 摘要
+这是一个测试文档，用于测试LaTeX渲染功能。
+## 引言
+这是引言章节的内容。
+### 背景
+这是背景部分的内容。
+## 方法
+这是方法章节的内容。
+### 实验设计
+这是实验设计部分的内容。
+## 结果
+这是结果章节的内容。
+### 数据表格
+| 列1 | 列2 | 列3 |
+| --- | --- | --- |
+| 行1 | 行1 | 行1 |
+| 行2 | 行2 | 行2 |
+### 代码示例
+```python
+print("Hello, world!")
+```
+## 讨论
+这是讨论章节的内容。
+## 结论
+这是结论章节的内容。
+## 参考文献
+[1] 参考文献1
+[2] 参考文献2
+        """.strip()
+        # 创建测试用的结构化内容
+        self.structured_content = {
+            "metadata": {
+                "title": "测试文档",
+                "author": "测试作者",
+                "date": "2023-01-01",
+                "abstract": "这是一个测试文档，用于测试LaTeX渲染功能。",
+                "keywords": ["测试", "LaTeX", "渲染"]
+            },
+            "structure": [
+                {"level": 1, "title": "测试文档", "line_number": 1},
+                {"level": 2, "title": "摘要", "line_number": 3},
+                {"level": 2, "title": "引言", "line_number": 7},
+                {"level": 3, "title": "背景", "line_number": 9},
+                {"level": 2, "title": "方法", "line_number": 13},
+                {"level": 3, "title": "实验设计", "line_number": 15},
+                {"level": 2, "title": "结果", "line_number": 19},
+                {"level": 3, "title": "数据表格", "line_number": 21},
+                {"level": 3, "title": "代码示例", "line_number": 29},
+                {"level": 2, "title": "讨论", "line_number": 35},
+                {"level": 2, "title": "结论", "line_number": 39},
+                {"level": 2, "title": "参考文献", "line_number": 43}
+            ],
+            "chapters": [
+                {"title": "测试文档", "content": "", "level": 1, "start_line": 1, "end_line": 1},
+                {"title": "摘要", "content": "这是一个测试文档，用于测试LaTeX渲染功能。", "level": 2, "start_line": 3, "end_line": 5},
+                {"title": "引言", "content": "这是引言章节的内容。", "level": 2, "start_line": 7, "end_line": 8},
+                {"title": "背景", "content": "这是背景部分的内容。", "level": 3, "start_line": 9, "end_line": 11},
+                {"title": "方法", "content": "这是方法章节的内容。", "level": 2, "start_line": 13, "end_line": 14},
+                {"title": "实验设计", "content": "这是实验设计部分的内容。", "level": 3, "start_line": 15, "end_line": 17},
+                {"title": "结果", "content": "这是结果章节的内容。", "level": 2, "start_line": 19, "end_line": 20},
+                {"title": "数据表格", "content": "| 列1 | 列2 | 列3 |\n| --- | --- | --- |\n| 行1 | 行1 | 行1 |\n| 行2 | 行2 | 行2 |", "level": 3, "start_line": 21, "end_line": 28},
+                {"title": "代码示例", "content": "```python\nprint(\"Hello, world!\")\n```", "level": 3, "start_line": 29, "end_line": 34},
+                {"title": "讨论", "content": "这是讨论章节的内容。", "level": 2, "start_line": 35, "end_line": 37},
+                {"title": "结论", "content": "这是结论章节的内容。", "level": 2, "start_line": 39, "end_line": 41},
+                {"title": "参考文献", "content": "[1] 参考文献1\n[2] 参考文献2", "level": 2, "start_line": 43, "end_line": 46}
+            ],
+            "references": [
+                {"text": "参考文献1"},
+                {"text": "参考文献2"}
+            ]
+        }
+    def test_latex_renderer(self):
+        """测试LaTeX渲染器"""
+        renderer = LaTeXRenderer()
+        # 测试渲染功能
+        latex_content = renderer.render(self.structured_content)
+        self.assertIsInstance(latex_content, bytes)
+        self.assertGreater(len(latex_content), 0)
+        # 保存为临时文件，以便手动检查
+        with tempfile.NamedTemporaryFile(suffix=".tex", delete=False) as tmp:
+            tmp.write(latex_content)
+            tmp_path = tmp.name
+        try:
+            # 验证文件存在且大小大于0
+            self.assertTrue(os.path.exists(tmp_path))
+            self.assertGreater(os.path.getsize(tmp_path), 0)
+        finally:
+            # 清理临时文件
+            if os.path.exists(tmp_path):
+                os.unlink(tmp_path)
+    def test_md_to_latex_converter(self):
+        """测试Markdown到LaTeX转换器"""
+        converter = MDToLaTeXConverter()
+        # 测试转换功能
+        result = converter.convert(self.test_content)
+        self.assertIsInstance(result, bytes)
+        self.assertGreater(len(result), 0)
+        # 保存为临时文件，以便手动检查
+        with tempfile.NamedTemporaryFile(suffix=".tex", delete=False) as tmp:
+            tmp.write(result)
+            tmp_path = tmp.name
+        try:
+            # 验证文件存在且大小大于0
+            self.assertTrue(os.path.exists(tmp_path))
+            self.assertGreater(os.path.getsize(tmp_path), 0)
+        finally:
+            # 清理临时文件
+            if os.path.exists(tmp_path):
+                os.unlink(tmp_path)
+    def test_latex_with_options(self):
+        """测试带选项的LaTeX渲染"""
+        renderer = LaTeXRenderer()
+        converter = MDToLaTeXConverter()
+        # 测试带选项的渲染
+        options = {
+            "document_class": "article",
+            "document_options": "a4paper, 12pt",
+            "table_of_contents": True
+        }
+        latex_content = renderer.render(self.structured_content, options)
+        self.assertIsInstance(latex_content, bytes)
+        self.assertGreater(len(latex_content), 0)
+        # 测试带选项的转换
+        result = converter.convert(self.test_content, options)
+        self.assertIsInstance(result, bytes)
+        self.assertGreater(len(result), 0)
+if __name__ == '__main__':
+    unittest.main()

hos-m2f 0.5.3__py3-none-any.whl → 0.5.5__py3-none-any.whl

hos-m2f 0.5.3py3-none-any.whl → 0.5.5py3-none-any.whl