PyPI - article-backup - Versions diffs - 0.3.5__tar.gz → 0.3.6__tar.gz - Mend

article-backup 0.3.5tar.gz → 0.3.6tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (28) hide show

{article_backup-0.3.5 → article_backup-0.3.6}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: article-backup
-Version: 0.3.5
+Version: 0.3.6
 Summary: Локальный бэкап статей с Sponsr.ru и Boosty.to в Markdown с Hugo-интеграцией
 Author-email: Eugene Chaykin <eugene@chayk.in>
 License: Apache-2.0

{article_backup-0.3.5 → article_backup-0.3.6}/article_backup.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: article-backup
-Version: 0.3.5
+Version: 0.3.6
 Summary: Локальный бэкап статей с Sponsr.ru и Boosty.to в Markdown с Hugo-интеграцией
 Author-email: Eugene Chaykin <eugene@chayk.in>
 License: Apache-2.0

{article_backup-0.3.5 → article_backup-0.3.6}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "article-backup"
-version = "0.3.5"
+version = "0.3.6"
 description = "Локальный бэкап статей с Sponsr.ru и Boosty.to в Markdown с Hugo-интеграцией"
 readme = "README.md"
 license = {text = "Apache-2.0"}

{article_backup-0.3.5 → article_backup-0.3.6}/src/sponsr.py RENAMED Viewed

@@ -361,12 +361,9 @@ class SponsorDownloader(BaseDownloader):
                     tag.insert_after(NavigableString(trailing))
         # 4. Вынос trailing/leading пробелов из <a> тегов наружу
-        #    После выноса пробелов из formatting тегов, пробел может остаться
-        #    внутри <a> (но вне <em>/<b>), что даёт [текст ](url) в markdown
         for tag in list(soup.find_all('a')):
             if tag.parent is None:
                 continue
-            # Trailing: проверяем последний дочерний узел (может быть голый пробел)
             children = list(tag.children)
             if children:
                 last_child = children[-1]
@@ -375,8 +372,40 @@ class SponsorDownloader(BaseDownloader):
                     last_child.replace_with(NavigableString(str(last_child).rstrip()))
                     tag.insert_after(NavigableString(trailing))
+        # 5. Экранирование markdown-символов в текстовых узлах
+        #    Чтобы "сырые" _, *, [ ] в тексте не превращались в разметку
+        self._escape_text_nodes(soup)
         return str(soup)
+    @staticmethod
+    def _escape_text_nodes(soup):
+        """Экранирует спецсимволы Markdown в текстовых узлах."""
+        from bs4 import NavigableString
+        replacements = {
+            '_': '@@@US@@@',
+            '*': '@@@AST@@@',
+            '[': '@@@LBR@@@',
+            ']': '@@@RBR@@@',
+        }
+        for text_node in soup.find_all(string=True):
+            if text_node.parent and text_node.parent.name in ['script', 'style', 'title']:
+                continue
+            text = str(text_node)
+            if not text:
+                continue
+            new_text = text
+            for char, placeholder in replacements.items():
+                if char in new_text:
+                    new_text = new_text.replace(char, placeholder)
+            if new_text != text:
+                text_node.replace_with(NavigableString(new_text))
     @staticmethod
     def _merge_adjacent_em(soup, em_tags: set, bold_tags: set):
         """Объединяет соседние <em>/<i> теги внутри одного родителя.
@@ -535,6 +564,12 @@ class SponsorDownloader(BaseDownloader):
         markdown = h2t.handle(html)
+        # Восстанавливаем экранированные символы (из плейсхолдеров DOM)
+        markdown = markdown.replace('@@@US@@@', r'\_')
+        markdown = markdown.replace('@@@AST@@@', r'\*')
+        markdown = markdown.replace('@@@LBR@@@', r'\[')
+        markdown = markdown.replace('@@@RBR@@@', r'\]')
         # Удаляем bidi-маркеры, которые ломают пробелы рядом с текстом
         markdown = re.sub(r'[\u200e\u200f\u202a-\u202e\u2066-\u2069]', '', markdown)
@@ -566,38 +601,19 @@ class SponsorDownloader(BaseDownloader):
         # Закрывающие: » " '
         markdown = re.sub(r'\s+([\u00bb\u201d\u2019])', r'\1', markdown)
-        # Восстанавливаем пробелы вокруг форматирования и ссылок
-        def _fix_spacing(text: str, pattern: re.Pattern) -> str:
-            """Добавляет пробелы вокруг элементов, если их нет."""
-            parts = []
-            last = 0
-            for match in pattern.finditer(text):
-                start, end = match.span()
-                before = text[last:start]
-                # Добавляем пробел слева, если нужно
-                if start > 0 and before and before[-1].isalnum():
-                    before = before + ' '
-                parts.append(before)
-                # Добавляем сам матч
-                matched_text = text[start:end]
-                # Добавляем пробел справа, если нужно
-                if end < len(text) and text[end].isalnum():
-                    matched_text = matched_text + ' '
-                parts.append(matched_text)
-                last = end
-            parts.append(text[last:])
-            return ''.join(parts)
-        # Восстанавливаем пробелы вокруг bold-italic, bold, ссылок
-        markdown = _fix_spacing(markdown, re.compile(r'\*\*\*.+?\*\*\*'))
-        markdown = _fix_spacing(markdown, re.compile(r'(?<!\*)\*\*(?!\*).+?(?<!\*)\*\*(?!\*)'))
-        markdown = _fix_spacing(markdown, re.compile(r'\[[^\]]+\]\([^)]+\)'))
+        # Восстанавливаем пробелы вокруг **bold**
+        # html2text часто склеивает: слово**bold** -> слово **bold**
+        # Используем поиск пар **, чтобы не сломать closing tag (bold**word -> bold **word - WRONG)
+        # 1. Left side: word**bold** -> word **bold**
+        markdown = re.sub(r'(\w)\*\*(.+?)\*\*', r'\1 **\2**', markdown)
+        # 2. Right side: **bold**word -> **bold** word
+        markdown = re.sub(r'\*\*(.+?)\*\*(\w)', r'**\1** \2', markdown)
+        # Убираем пробел между ссылкой и знаками препинания (даже если они курсивные)
+        # [link](url) . -> [link](url).
+        # [link](url) _._ -> [link](url)_._
+        markdown = re.sub(r'(\)\s+)([.,:;!?])', r')\2', markdown)
+        markdown = re.sub(r'(\)\s+)(_[.,:;!?]_)', r')\2', markdown)
         # Исправляем артефакты html2text внутри ссылок: [ _текст_ ] -> [_текст_]
         markdown = re.sub(r'\[\s+_', r'[_', markdown)

{article_backup-0.3.5 → article_backup-0.3.6}/tests/test_sponsr_normalize.py RENAMED Viewed

@@ -412,6 +412,100 @@ class SponsorNormalizeTests(unittest.TestCase):
         self.assertIn('_курсив2_', result)
         self.assertIn('обычный', result)
+    def _convert_full(self, html):
+        """Helper to convert HTML to Markdown (full text)."""
+        post = Post(
+            post_id='1',
+            title='Test',
+            content_html=html,
+            post_date='2025-01-01',
+            source_url='https://test.com',
+            tags=[],
+            assets=[]
+        )
+        return self.downloader._to_markdown(post, {})
+    def test_case_1_spacing_cleanup(self):
+        """1. Пробелы внутри курсива (_ текст _) и вокруг."""
+        html = (
+            '<p>фильме.</em></p><p><em>Например, Гор предсказал, что к 2016 году на Килиманджаро не останется снега. '
+            'В 2020 году газета The Times сообщила, что снег на горе высотой 19 000 футов (около 5800 метров) остался, '
+            'несмотря на предсказания Гора. </em></p><p><em>Гор'
+        )
+        md = self._convert_full(html)
+        # Expectation: no spaces inside markers, clean paragraphs
+        self.assertIn('фильме.', md)
+        self.assertIn('_Например, Гор', md)
+        self.assertIn('предсказания Гора._', md)
+        self.assertIn('_Гор', md)
+        self.assertNotIn('_ Например', md)
+        self.assertNotIn('Гора. _', md)
+        self.assertNotIn(' _Гор', md)
+    def test_case_2_multiline_italic(self):
+        """2. Курсив через границы абзацев."""
+        html = (
+            '<p>В.М.).</em></p><p><em>Метеоролог Крис Марц сказал, что климатология полна неопределенности и нюансов, '
+            'которые «Неудобная правда» полностью отвергает. </em></p><p><em>Однако'
+        )
+        md = self._convert_full(html)
+        self.assertIn('В.М.).', md)
+        self.assertIn('_Метеоролог Крис', md)
+        self.assertIn('отвергает._', md)
+        self.assertIn('_Однако', md)
+        self.assertNotIn('_ Метеоролог', md)
+        self.assertNotIn('отвергает. _', md)
+    def test_case_3_literal_underscore_in_text(self):
+        """3. Символы _ в обычном тексте не должны становиться разметкой."""
+        html = (
+            '<p>сформулировал: «_39 лет я никогда не писал этих слов в отзыве на кино, а сейчас пишу: _'
+            '<a href="http://example.com" target="_blank"><em>вы <strong>обязаны</strong> это посмотреть</em></a>».</p><p>К тому же'
+        )
+        md = self._convert_full(html)
+        # Literal underscores should be escaped
+        self.assertIn(r'\_39 лет', md)
+        self.assertIn(r'пишу: \_', md)
+        # Link formatting should be clean
+        self.assertIn('[_вы **обязаны** это посмотреть_](http://example.com)', md)
+        # No extra spaces
+        self.assertNotIn('[ _вы', md)
+    def test_case_4_underscore_suffix(self):
+        """4. Пробел перед закрывающим _."""
+        html = '<p>читатель данного проекта ощутил себя _не таким как все _(которого не проведёшь)?</p>'
+        md = self._convert_full(html)
+        # Literal underscores should be escaped
+        self.assertIn(r'\_не таким как все \_', md)
+        # Verify no unescaped underscores (except inside words if any, but here they are spaced)
+        # Using regex to ensure underscores are preceded by backslash
+        import re
+        self.assertFalse(re.search(r'(?<!\\)_', md), "Found unescaped underscore")
+    def test_case_5_link_italic_punctuation(self):
+        """5. Курсив вокруг ссылки и точки."""
+        html = (
+            '<p>бежать.</em></p><p><em>Из нескольких разговоров ... из </em>'
+            '<a href="https://example.com" target="_blank"><em>свежего текста</em></a><em>.</em></p><p><em>Поэтому'
+        )
+        md = self._convert_full(html)
+        self.assertIn('бежать.', md)
+        self.assertIn('_Из нескольких', md)
+        # Link inside italic context
+        self.assertIn('](https://example.com)', md)
+        self.assertNotIn(' _.', md)
+        self.assertNotIn('_. _', md)
 if __name__ == '__main__':
     unittest.main()