PyPI - article-backup - Versions diffs - 0.1.0__tar.gz → 0.2.2__tar.gz - Mend

article-backup 0.1.0tar.gz → 0.2.2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

{article_backup-0.1.0 → article_backup-0.2.2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: article-backup
-Version: 0.1.0
+Version: 0.2.2
 Summary: Локальный бэкап статей с Sponsr.ru и Boosty.to в Markdown с Hugo-интеграцией
 Author-email: Eugene Chaykin <eugene@chayk.in>
 License: Apache-2.0
@@ -31,6 +31,10 @@ Dynamic: license-file
 # Article Backup
+[![PyPI version](https://img.shields.io/pypi/v/article-backup.svg)](https://pypi.org/project/article-backup/)
+[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/)
+[![License](https://img.shields.io/badge/License-Apache%202.0-blue.svg)](https://opensource.org/licenses/Apache-2.0)
 Скрипт для локального бэкапа статей с платформ **Sponsr.ru** и **Boosty.to**.
 Конвертирует статьи в Markdown с YAML-метаданными, скачивает изображения и другие медиафайлы, поддерживает инкрементальную синхронизацию.
@@ -41,15 +45,25 @@ Dynamic: license-file
 - Инкрементальные обновления — скачивает только новые статьи
 - Конвертация в Markdown с frontmatter (title, date, tags, source)
 - Локальное сохранение изображений, видео, аудио, PDF
+- Гибкая фильтрация типов скачиваемых файлов (image, video, audio, document)
 - Сохранение ссылок на встроенные видео (Rutube, YouTube, Vimeo, VK, OK.ru)
+- Нормализация сложной разметки Sponsr (вложенный em/strong, кавычки, bidi-маркеры)
 - Исправление внутренних ссылок между статьями
-- Интеграция с Hugo для просмотра в браузере
+- Интеграция с Hugo для просмотра в браузере (поддержка тем, улучшенная типографика)
 - SQLite-индекс для быстрого поиска
 ## Установка
 Требуется **Python 3.10+**
+### Вариант 1: Через pip (рекомендуется)
+```bash
+pip install article-backup
+```
+### Вариант 2: Из исходников
 ```bash
 git clone https://github.com/strannick-ru/article-backup.git
 cd article-backup
@@ -86,7 +100,8 @@ sources:
   - platform: sponsr
     author: pushkin
     display_name: "Пушкин. Проза"
+    asset_types: ["image", "document"] # Скачивать только картинки и документы
   - platform: boosty
     author: lermontov
     display_name: "Лермонтов. Стихи"
@@ -120,44 +135,66 @@ console.log("Cookie:\n" + cookie + "\n\nAuthorization:\nBearer " + auth.accessTo
 ### Синхронизация всех авторов
 ```bash
+# Если установлено через pip
+article-backup
+# Или из исходников
 python backup.py
 ```
 ### Скачать один пост по URL
 ```bash
-python backup.py "https://sponsr.ru/author/12345/post-title/"
-python backup.py "https://boosty.to/author/posts/uuid"
+article-backup "https://sponsr.ru/author/12345/post-title/"
+article-backup "https://boosty.to/author/posts/uuid"
 ```
 ### Указать другой конфиг
 ```bash
-python backup.py -c /path/to/config.yaml
+article-backup -c /path/to/config.yaml
+```
+## Разработка
+### Тесты
+Проект использует встроенный `unittest`.
+```bash
+python -m unittest -q
 ```
 ## Docker
 Для серверов с устаревшим Python можно использовать Docker.
-```bash
-# Сборка образа
-docker compose build
+Для удобства используйте скрипт `run-docker.sh`, который автоматически подхватывает `output_dir` из вашего `config.yaml` и монтирует правильный volume.
-# Синхронизация всех авторов
-docker compose run --rm backup
+```bash
+# Синхронизация + сборка сайта (рекомендуемый способ)
+./run-docker.sh
 # Скачать один пост
-docker compose run --rm backup "https://sponsr.ru/author/123/"
+./run-docker.sh "https://sponsr.ru/author/123/"
-# Сборка Hugo-сайта
-docker compose run --rm hugo
+# Только пересборка сайта
+./run-docker.sh hugo
-# Полная синхронизация (backup + hugo)
-docker compose run --rm backup && docker compose run --rm hugo
+# Пересборка контейнеров
+./run-docker.sh build
+```
-# Пересборка после изменений кода
-docker compose build --no-cache
+### Ручной запуск (Advanced)
+Если вы не хотите использовать скрипт, можно запускать через `docker compose`, но нужно вручную указывать путь к бэкапам, если он отличается от `./backup`.
+```bash
+# Если output_dir в конфиге = ./backup
+docker compose run --rm backup
+# Если output_dir другой
+HOST_BACKUP_DIR=/path/to/data docker compose run --rm backup
 ```
 ### Cron
@@ -211,8 +248,11 @@ hugo:
   base_url: "https://example.com/"  # URL сайта для production
   title: "Мой архив статей"         # Заголовок сайта
   language_code: "ru"               # Язык контента
+  default_theme: "sepia"            # Тема по умолчанию: light, dark, sepia, gruvbox, everforest
 ```
+Сайт поддерживает переключение тем "на лету" (кнопки в углу экрана). Выбор пользователя сохраняется в браузере.
 Если секция `hugo:` не указана, используются значения по умолчанию (`http://localhost:1313/`).
 ### RSS-ленты

{article_backup-0.1.0 → article_backup-0.2.2}/README.md RENAMED Viewed

@@ -1,5 +1,9 @@
 # Article Backup
+[![PyPI version](https://img.shields.io/pypi/v/article-backup.svg)](https://pypi.org/project/article-backup/)
+[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/)
+[![License](https://img.shields.io/badge/License-Apache%202.0-blue.svg)](https://opensource.org/licenses/Apache-2.0)
 Скрипт для локального бэкапа статей с платформ **Sponsr.ru** и **Boosty.to**.
 Конвертирует статьи в Markdown с YAML-метаданными, скачивает изображения и другие медиафайлы, поддерживает инкрементальную синхронизацию.
@@ -10,15 +14,25 @@
 - Инкрементальные обновления — скачивает только новые статьи
 - Конвертация в Markdown с frontmatter (title, date, tags, source)
 - Локальное сохранение изображений, видео, аудио, PDF
+- Гибкая фильтрация типов скачиваемых файлов (image, video, audio, document)
 - Сохранение ссылок на встроенные видео (Rutube, YouTube, Vimeo, VK, OK.ru)
+- Нормализация сложной разметки Sponsr (вложенный em/strong, кавычки, bidi-маркеры)
 - Исправление внутренних ссылок между статьями
-- Интеграция с Hugo для просмотра в браузере
+- Интеграция с Hugo для просмотра в браузере (поддержка тем, улучшенная типографика)
 - SQLite-индекс для быстрого поиска
 ## Установка
 Требуется **Python 3.10+**
+### Вариант 1: Через pip (рекомендуется)
+```bash
+pip install article-backup
+```
+### Вариант 2: Из исходников
 ```bash
 git clone https://github.com/strannick-ru/article-backup.git
 cd article-backup
@@ -55,7 +69,8 @@ sources:
   - platform: sponsr
     author: pushkin
     display_name: "Пушкин. Проза"
+    asset_types: ["image", "document"] # Скачивать только картинки и документы
   - platform: boosty
     author: lermontov
     display_name: "Лермонтов. Стихи"
@@ -89,44 +104,66 @@ console.log("Cookie:\n" + cookie + "\n\nAuthorization:\nBearer " + auth.accessTo
 ### Синхронизация всех авторов
 ```bash
+# Если установлено через pip
+article-backup
+# Или из исходников
 python backup.py
 ```
 ### Скачать один пост по URL
 ```bash
-python backup.py "https://sponsr.ru/author/12345/post-title/"
-python backup.py "https://boosty.to/author/posts/uuid"
+article-backup "https://sponsr.ru/author/12345/post-title/"
+article-backup "https://boosty.to/author/posts/uuid"
 ```
 ### Указать другой конфиг
 ```bash
-python backup.py -c /path/to/config.yaml
+article-backup -c /path/to/config.yaml
+```
+## Разработка
+### Тесты
+Проект использует встроенный `unittest`.
+```bash
+python -m unittest -q
 ```
 ## Docker
 Для серверов с устаревшим Python можно использовать Docker.
-```bash
-# Сборка образа
-docker compose build
+Для удобства используйте скрипт `run-docker.sh`, который автоматически подхватывает `output_dir` из вашего `config.yaml` и монтирует правильный volume.
-# Синхронизация всех авторов
-docker compose run --rm backup
+```bash
+# Синхронизация + сборка сайта (рекомендуемый способ)
+./run-docker.sh
 # Скачать один пост
-docker compose run --rm backup "https://sponsr.ru/author/123/"
+./run-docker.sh "https://sponsr.ru/author/123/"
-# Сборка Hugo-сайта
-docker compose run --rm hugo
+# Только пересборка сайта
+./run-docker.sh hugo
-# Полная синхронизация (backup + hugo)
-docker compose run --rm backup && docker compose run --rm hugo
+# Пересборка контейнеров
+./run-docker.sh build
+```
-# Пересборка после изменений кода
-docker compose build --no-cache
+### Ручной запуск (Advanced)
+Если вы не хотите использовать скрипт, можно запускать через `docker compose`, но нужно вручную указывать путь к бэкапам, если он отличается от `./backup`.
+```bash
+# Если output_dir в конфиге = ./backup
+docker compose run --rm backup
+# Если output_dir другой
+HOST_BACKUP_DIR=/path/to/data docker compose run --rm backup
 ```
 ### Cron
@@ -180,8 +217,11 @@ hugo:
   base_url: "https://example.com/"  # URL сайта для production
   title: "Мой архив статей"         # Заголовок сайта
   language_code: "ru"               # Язык контента
+  default_theme: "sepia"            # Тема по умолчанию: light, dark, sepia, gruvbox, everforest
 ```
+Сайт поддерживает переключение тем "на лету" (кнопки в углу экрана). Выбор пользователя сохраняется в браузере.
 Если секция `hugo:` не указана, используются значения по умолчанию (`http://localhost:1313/`).
 ### RSS-ленты

{article_backup-0.1.0 → article_backup-0.2.2}/article_backup.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: article-backup
-Version: 0.1.0
+Version: 0.2.2
 Summary: Локальный бэкап статей с Sponsr.ru и Boosty.to в Markdown с Hugo-интеграцией
 Author-email: Eugene Chaykin <eugene@chayk.in>
 License: Apache-2.0
@@ -31,6 +31,10 @@ Dynamic: license-file
 # Article Backup
+[![PyPI version](https://img.shields.io/pypi/v/article-backup.svg)](https://pypi.org/project/article-backup/)
+[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/)
+[![License](https://img.shields.io/badge/License-Apache%202.0-blue.svg)](https://opensource.org/licenses/Apache-2.0)
 Скрипт для локального бэкапа статей с платформ **Sponsr.ru** и **Boosty.to**.
 Конвертирует статьи в Markdown с YAML-метаданными, скачивает изображения и другие медиафайлы, поддерживает инкрементальную синхронизацию.
@@ -41,15 +45,25 @@ Dynamic: license-file
 - Инкрементальные обновления — скачивает только новые статьи
 - Конвертация в Markdown с frontmatter (title, date, tags, source)
 - Локальное сохранение изображений, видео, аудио, PDF
+- Гибкая фильтрация типов скачиваемых файлов (image, video, audio, document)
 - Сохранение ссылок на встроенные видео (Rutube, YouTube, Vimeo, VK, OK.ru)
+- Нормализация сложной разметки Sponsr (вложенный em/strong, кавычки, bidi-маркеры)
 - Исправление внутренних ссылок между статьями
-- Интеграция с Hugo для просмотра в браузере
+- Интеграция с Hugo для просмотра в браузере (поддержка тем, улучшенная типографика)
 - SQLite-индекс для быстрого поиска
 ## Установка
 Требуется **Python 3.10+**
+### Вариант 1: Через pip (рекомендуется)
+```bash
+pip install article-backup
+```
+### Вариант 2: Из исходников
 ```bash
 git clone https://github.com/strannick-ru/article-backup.git
 cd article-backup
@@ -86,7 +100,8 @@ sources:
   - platform: sponsr
     author: pushkin
     display_name: "Пушкин. Проза"
+    asset_types: ["image", "document"] # Скачивать только картинки и документы
   - platform: boosty
     author: lermontov
     display_name: "Лермонтов. Стихи"
@@ -120,44 +135,66 @@ console.log("Cookie:\n" + cookie + "\n\nAuthorization:\nBearer " + auth.accessTo
 ### Синхронизация всех авторов
 ```bash
+# Если установлено через pip
+article-backup
+# Или из исходников
 python backup.py
 ```
 ### Скачать один пост по URL
 ```bash
-python backup.py "https://sponsr.ru/author/12345/post-title/"
-python backup.py "https://boosty.to/author/posts/uuid"
+article-backup "https://sponsr.ru/author/12345/post-title/"
+article-backup "https://boosty.to/author/posts/uuid"
 ```
 ### Указать другой конфиг
 ```bash
-python backup.py -c /path/to/config.yaml
+article-backup -c /path/to/config.yaml
+```
+## Разработка
+### Тесты
+Проект использует встроенный `unittest`.
+```bash
+python -m unittest -q
 ```
 ## Docker
 Для серверов с устаревшим Python можно использовать Docker.
-```bash
-# Сборка образа
-docker compose build
+Для удобства используйте скрипт `run-docker.sh`, который автоматически подхватывает `output_dir` из вашего `config.yaml` и монтирует правильный volume.
-# Синхронизация всех авторов
-docker compose run --rm backup
+```bash
+# Синхронизация + сборка сайта (рекомендуемый способ)
+./run-docker.sh
 # Скачать один пост
-docker compose run --rm backup "https://sponsr.ru/author/123/"
+./run-docker.sh "https://sponsr.ru/author/123/"
-# Сборка Hugo-сайта
-docker compose run --rm hugo
+# Только пересборка сайта
+./run-docker.sh hugo
-# Полная синхронизация (backup + hugo)
-docker compose run --rm backup && docker compose run --rm hugo
+# Пересборка контейнеров
+./run-docker.sh build
+```
-# Пересборка после изменений кода
-docker compose build --no-cache
+### Ручной запуск (Advanced)
+Если вы не хотите использовать скрипт, можно запускать через `docker compose`, но нужно вручную указывать путь к бэкапам, если он отличается от `./backup`.
+```bash
+# Если output_dir в конфиге = ./backup
+docker compose run --rm backup
+# Если output_dir другой
+HOST_BACKUP_DIR=/path/to/data docker compose run --rm backup
 ```
 ### Cron
@@ -211,8 +248,11 @@ hugo:
   base_url: "https://example.com/"  # URL сайта для production
   title: "Мой архив статей"         # Заголовок сайта
   language_code: "ru"               # Язык контента
+  default_theme: "sepia"            # Тема по умолчанию: light, dark, sepia, gruvbox, everforest
 ```
+Сайт поддерживает переключение тем "на лету" (кнопки в углу экрана). Выбор пользователя сохраняется в браузере.
 Если секция `hugo:` не указана, используются значения по умолчанию (`http://localhost:1313/`).
 ### RSS-ленты

{article_backup-0.1.0 → article_backup-0.2.2}/article_backup.egg-info/SOURCES.txt RENAMED Viewed

@@ -14,4 +14,5 @@ src/config.py
 src/database.py
 src/downloader.py
 src/sponsr.py
-src/utils.py
+src/utils.py
+tests/test_asset_dedup.py

{article_backup-0.1.0 → article_backup-0.2.2}/backup.py RENAMED Viewed

@@ -6,8 +6,9 @@ import argparse
 import os
 import sys
 from pathlib import Path
+from typing import cast
-from src.config import Config, load_config, Source
+from src.config import Config, load_config, Source, Platform
 from src.database import Database
 from src.utils import is_post_url, parse_post_url
 from src.sponsr import SponsorDownloader
@@ -25,6 +26,9 @@ languageCode = '{config.hugo.language_code}'
 title = '{config.hugo.title}'
 relativeURLs = true
+[params]
+  default_theme = '{config.hugo.default_theme}'
 [markup.goldmark.renderer]
   unsafe = true
@@ -43,6 +47,12 @@ relativeURLs = true
 def ensure_site_content_link(config: Config):
     """Создаёт симлинк site/content → output_dir."""
+    # В Docker-среде (когда задан BACKUP_OUTPUT_DIR) мы не создаем симлинк,
+    # так как пути внутри контейнера (/app/backup) не совпадают с хостовыми.
+    # Симлинк должен создаваться скриптом запуска (run-docker.sh) на хосте.
+    if os.environ.get('BACKUP_OUTPUT_DIR'):
+        return
     site_content = Path('site/content')
     # Если уже правильный симлинк — ничего не делаем
@@ -89,11 +99,18 @@ def sync_all(config: Config, db: Database):
 def download_single_post(url: str, config: Config, db: Database):
     """Скачивает один пост по URL."""
-    platform, author, post_id = parse_post_url(url)
+    platform_str, author, post_id = parse_post_url(url)
+    platform = cast(Platform, platform_str)
     # Создаём Source для этого автора
     source = Source(platform=platform, author=author, download_assets=True)
+    # Пытаемся найти настройки источника в конфиге
+    for src in config.sources:
+        if src.platform == platform and src.author == author:
+            source = src
+            break
     downloader = get_downloader(platform, config, source, db)
     downloader.download_single(post_id)

{article_backup-0.1.0 → article_backup-0.2.2}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "article-backup"
-version = "0.1.0"
+version = "0.2.2"
 description = "Локальный бэкап статей с Sponsr.ru и Boosty.to в Markdown с Hugo-интеграцией"
 readme = "README.md"
 license = {text = "Apache-2.0"}

{article_backup-0.1.0 → article_backup-0.2.2}/src/boosty.py RENAMED Viewed

@@ -132,7 +132,7 @@ class BoostyDownloader(BaseDownloader):
             elif block_type == "ok_video":
                 # ok.ru видео требует отдельной обработки
                 # Пока сохраняем только превью, если есть
-                preview = block.get("previewUrl", "")
+                preview = block.get("previewUrl") or block.get("preview") or ""
                 if preview:
                     assets.append({
                         "url": preview,

{article_backup-0.1.0 → article_backup-0.2.2}/src/config.py RENAMED Viewed

@@ -6,6 +6,7 @@ from pathlib import Path
 from typing import Literal
 import yaml
+import os
 Platform = Literal['sponsr', 'boosty']
@@ -16,6 +17,7 @@ class Source:
     author: str
     download_assets: bool = True
     display_name: str | None = None
+    asset_types: list[str] | None = None
 @dataclass
 class Auth:
@@ -29,6 +31,7 @@ class HugoConfig:
     base_url: str = "http://localhost:1313/"
     title: str = "Бэкап статей"
     language_code: str = "ru"
+    default_theme: str = "light"
 @dataclass
@@ -45,7 +48,11 @@ def load_config(config_path: Path) -> Config:
         data = yaml.safe_load(f)
     # output_dir
-    output_dir = Path(data.get('output_dir', './backup'))
+    env_output_dir = os.environ.get('BACKUP_OUTPUT_DIR')
+    if env_output_dir:
+        output_dir = Path(env_output_dir)
+    else:
+        output_dir = Path(data.get('output_dir', './backup'))
     # auth
     auth_data = data.get('auth', {})
@@ -63,6 +70,7 @@ def load_config(config_path: Path) -> Config:
             author=src['author'],
             download_assets=src.get('download_assets', True),
             display_name=src.get('display_name'),
+            asset_types=src.get('asset_types'),
         ))
     # hugo
@@ -71,6 +79,7 @@ def load_config(config_path: Path) -> Config:
         base_url=hugo_data.get('base_url', HugoConfig.base_url),
         title=hugo_data.get('title', HugoConfig.title),
         language_code=hugo_data.get('language_code', HugoConfig.language_code),
+        default_theme=hugo_data.get('default_theme', HugoConfig.default_theme),
     )
     return Config(output_dir=output_dir, auth=auth, sources=sources, hugo=hugo)

{article_backup-0.1.0 → article_backup-0.2.2}/src/downloader.py RENAMED Viewed

@@ -4,6 +4,7 @@
 import hashlib
 import json
 import re
+import threading
 import time
 from abc import ABC, abstractmethod
 from concurrent.futures import ThreadPoolExecutor, as_completed
@@ -22,7 +23,6 @@ from .utils import (
     should_download_asset,
     get_extension_from_content_type,
     transliterate,
-    sanitize_filename,
     extract_internal_links,
 )
@@ -61,7 +61,9 @@ def retry_request(
                 time.sleep(delay)
                 delay = min(delay * backoff_factor, max_delay)
-    raise last_exception
+    if last_exception:
+        raise last_exception
+    raise Exception("Max retries exceeded")
 @dataclass
@@ -135,6 +137,7 @@ class BaseDownloader(ABC):
     def download_single(self, post_id: str):
         """Скачивает один пост по ID."""
         print(f"[{self.PLATFORM}] Скачивание поста {post_id}...")
+        self._create_index_files()  # Создаем индексы, чтобы не было "Boosties"
         post = self.fetch_post(post_id)
         if post:
             self._save_post(post)
@@ -245,15 +248,16 @@ class BaseDownloader(ABC):
         Скачивает assets параллельно.
         Возвращает маппинг {original_url: local_filename}.
         """
-        asset_map = {}
+        asset_map: dict[str, str] = {}
         used_filenames: set[str] = set()
+        used_lock = threading.Lock()
         def download_one(asset: dict) -> tuple[str, str | None]:
             url = asset["url"]
             try:
-                # Предварительная проверка только по расширению (если есть)
+                # Предварительная проверка (если расширение есть)
                 ext = Path(urlparse(url).path).suffix.lower()
-                if ext and ext not in ALLOWED_EXTENSIONS:
+                if ext and not should_download_asset(url, None, self.source.asset_types):
                     return url, None
                 def do_request():
@@ -266,11 +270,24 @@ class BaseDownloader(ABC):
                 content_type = response.headers.get('Content-Type', '')
                 # Полная проверка после получения Content-Type
-                if not should_download_asset(url, content_type):
+                if not should_download_asset(url, content_type, self.source.asset_types):
                     return url, None
-                filename = self._make_asset_filename(url, content_type, asset.get('alt'))
-                filepath = assets_dir / filename
+                filename_base = self._make_asset_filename(url, content_type, asset.get('alt'))
+                with used_lock:
+                    filename = filename_base
+                    filepath = assets_dir / filename
+                    if filename in used_filenames or filepath.exists():
+                        filename = self._deduplicate_filename(filename, url)
+                        filepath = assets_dir / filename
+                    # На всякий случай добиваемся уникальности в рамках сессии
+                    while filename in used_filenames or filepath.exists():
+                        filename = self._deduplicate_filename(filename, url + filename)
+                        filepath = assets_dir / filename
+                    used_filenames.add(filename)
                 if not filepath.exists():
                     with open(filepath, 'wb') as f:
@@ -287,10 +304,6 @@ class BaseDownloader(ABC):
             for future in as_completed(futures):
                 url, filename = future.result()
                 if filename:
-                    # Дедупликация имён файлов
-                    if filename in used_filenames:
-                        filename = self._deduplicate_filename(filename, url)
-                    used_filenames.add(filename)
                     asset_map[url] = filename
         return asset_map
@@ -348,7 +361,11 @@ class BaseDownloader(ABC):
             original_body = body
-            for full_url, platform, post_id in extract_internal_links(body):
+            for full_url, platform, author, post_id in extract_internal_links(body):
+                if platform != self.PLATFORM:
+                    continue
+                if author != self.source.author:
+                    continue
                 if post_id in id_to_slug:
                     body = body.replace(full_url, f"../{id_to_slug[post_id]}/")

{article_backup-0.1.0 → article_backup-0.2.2}/src/sponsr.py RENAMED Viewed

@@ -3,6 +3,7 @@
 import json
 import re
 from urllib.parse import urljoin
 import requests
@@ -150,17 +151,23 @@ class SponsorDownloader(BaseDownloader):
     def _parse_post(self, raw_data: dict) -> Post:
         """Парсит сырые данные API в Post."""
-        post_id = str(raw_data['post_id'])
-        title = raw_data.get('post_title', 'Без названия')
-        post_date = raw_data.get('post_date', '')
+        post_id = str(raw_data.get('post_id') or raw_data.get('id'))
+        title = raw_data.get('post_title') or raw_data.get('title') or 'Без названия'
+        post_date = raw_data.get('post_date') or raw_data.get('date') or ''
         # URL поста
-        post_url = raw_data.get('post_url', '')
+        post_url = raw_data.get('post_url') or f"/{self.source.author}/{post_id}/"
         if post_url and not post_url.startswith('http'):
             post_url = f"https://sponsr.ru{post_url}"
         # HTML контент
-        content_html = raw_data.get('post_text', '')
+        content_obj = raw_data.get('post_text') or raw_data.get('text')
+        if isinstance(content_obj, dict):
+            content_html = content_obj.get('text', '')
+        elif isinstance(content_obj, str):
+            content_html = content_obj
+        else:
+            content_html = ''
         # Теги
         tags = raw_data.get('tags', [])
@@ -253,5 +260,89 @@ class SponsorDownloader(BaseDownloader):
         markdown = h2t.handle(html)
+        # Удаляем bidi-маркеры, которые ломают пробелы рядом с текстом
+        markdown = re.sub(r'[\u200e\u200f\u202a-\u202e\u2066-\u2069]', '', markdown)
+        # Нормализуем неразрывные пробелы
+        markdown = re.sub(r'[\u00a0\u202f]', ' ', markdown)
+        # Склеиваем разорванный курсив вокруг bold-italic (вложенные em/strong)
+        prev = None
+        pattern = re.compile(
+            r'_(?P<left>[^_\n]+?)_(?P<sep1>[ \t]*)\*\*(?P<space1>[ \t]*)_(?P<bold>[^_\n]+?)_'
+            r'(?P<space2>[ \t]*)\*\*(?P<sep2>[ \t]*)_(?P<right>[^_\n]+?)_'
+        )
+        while prev != markdown:
+            prev = markdown
+            markdown = pattern.sub(
+                r'_\g<left>\g<sep1>\g<space1>**\g<bold>**\g<space2>\g<sep2>\g<right>_',
+                markdown,
+            )
+        prev = None
+        pattern = re.compile(
+            r'\*(?P<left>[^*\n]+?)\*(?P<sep1>[ \t]*)\*\*(?P<space1>[ \t]*)\*(?P<bold>[^*\n]+?)\*'
+            r'(?P<space2>[ \t]*)\*\*(?P<sep2>[ \t]*)\*(?P<right>[^*\n]+?)\*'
+        )
+        while prev != markdown:
+            prev = markdown
+            markdown = pattern.sub(
+                r'*\g<left>\g<sep1>\g<space1>**\g<bold>**\g<space2>\g<sep2>\g<right>*',
+                markdown,
+            )
+        # Склеиваем вложенные em/strong в жирный курсив
+        markdown = re.sub(r'\*\*\s*_(.+?)_\s*\*\*', r'***\1***', markdown)
+        markdown = re.sub(r'_\s*\*\*(.+?)\*\*\s*_', r'***\1***', markdown)
+        markdown = re.sub(r'\*\*\s*\*(.+?)\*\s*\*\*', r'***\1***', markdown)
+        markdown = re.sub(r'\*\s*\*\*(.+?)\*\*\s*\*', r'***\1***', markdown)
+        # Убираем лишние пробелы, добавленные html2text рядом с Unicode-кавычками
+        # Открывающие: « „ “ ‘
+        markdown = re.sub(r'([\u00ab\u201e\u201c\u2018])\s+', r'\1', markdown)
+        # Закрывающие: » ” ’
+        markdown = re.sub(r'\s+([\u00bb\u201d\u2019])', r'\1', markdown)
+        # Убираем пробелы внутри **bold** (особенно при вложенных em/strong)
+        markdown = re.sub(r'\*\*[ \t]+([^*\n]+?)[ \t]*\*\*', r'**\1**', markdown)
+        markdown = re.sub(r'\*\*[ \t]*([^*\n]+?)[ \t]+\*\*', r'**\1**', markdown)
+        # Убираем пробелы внутри ***bold-italic***
+        markdown = re.sub(r'\*\*\*[ \t]+([^*\n]+?)[ \t]*\*\*\*', r'***\1***', markdown)
+        markdown = re.sub(r'\*\*\*[ \t]*([^*\n]+?)[ \t]+\*\*\*', r'***\1***', markdown)
+        # Восстанавливаем пробелы вокруг **...** и ***...***, если они потерялись
+        def _fix_emphasis_spacing(text: str, pattern: re.Pattern) -> str:
+            parts = []
+            last = 0
+            for match in pattern.finditer(text):
+                start, end = match.span()
+                parts.append(text[last:start])
+                if start > 0:
+                    prev = text[start - 1]
+                    if prev.isalnum() and not prev.isspace():
+                        if not (parts and parts[-1].endswith(' ')):
+                            parts.append(' ')
+                parts.append(text[start:end])
+                if end < len(text):
+                    next_char = text[end]
+                    if next_char.isalnum() and not next_char.isspace():
+                        parts.append(' ')
+                last = end
+            parts.append(text[last:])
+            return ''.join(parts)
+        markdown = _fix_emphasis_spacing(markdown, re.compile(r'\*\*\*.+?\*\*\*'))
+        markdown = _fix_emphasis_spacing(
+            markdown,
+            re.compile(r'(?<!\*)\*\*(?!\*).+?(?<!\*)\*\*(?!\*)'),
+        )
         # Добавляем заголовок
         return f"# {post.title}\n\n{markdown}"

{article_backup-0.1.0 → article_backup-0.2.2}/src/utils.py RENAMED Viewed

@@ -6,20 +6,32 @@ from pathlib import Path
 from urllib.parse import urlparse
 from slugify import slugify
-# Белый список расширений
-ALLOWED_EXTENSIONS = {
-    '.jpg', '.jpeg', '.png', '.gif', '.webp', '.svg',
-    '.mp4', '.webm', '.mov', '.mkv', '.avi',
-    '.mp3', '.wav', '.flac', '.ogg',
-    '.pdf',
+# Типы ассетов и их расширения
+ASSET_TYPES = {
+    'image': {'.jpg', '.jpeg', '.png', '.gif', '.webp', '.svg'},
+    'video': {'.mp4', '.webm', '.mov', '.mkv', '.avi'},
+    'audio': {'.mp3', '.wav', '.flac', '.ogg'},
+    'document': {'.pdf'},
 }
-# Допустимые Content-Type
-ALLOWED_CONTENT_TYPES = {'image/', 'video/', 'audio/', 'application/pdf'}
+# Глобальный список разрешенных расширений
+ALLOWED_EXTENSIONS = set().union(*ASSET_TYPES.values())
+# Префиксы Content-Type для категорий
+CONTENT_TYPE_MAP = {
+    'image': ['image/'],
+    'video': ['video/'],
+    'audio': ['audio/'],
+    'document': ['application/pdf'],
+}
 # Паттерны для внутренних ссылок
-SPONSR_LINK_PATTERN = re.compile(r'https?://sponsr\.ru/([^/]+)/(\d+)(?:/[^\s\)\]"\'<>]*)?')
-BOOSTY_LINK_PATTERN = re.compile(r'https?://boosty\.to/([^/]+)/posts/([a-f0-9-]+)(?:[^\s\)\]"\'<>]*)?')
+SPONSR_LINK_PATTERN = re.compile(
+    r'https?://sponsr\.ru/(?P<author>[^/]+)/(?P<post_id>\d+)(?:/[^\s\)\]"\'<>]*)?'
+)
+BOOSTY_LINK_PATTERN = re.compile(
+    r'https?://boosty\.to/(?P<author>[^/]+)/posts/(?P<post_id>[a-f0-9-]+)(?:[^\s\)\]"\'<>]*)?'
+)
 def transliterate(text: str) -> str:
@@ -60,21 +72,50 @@ def is_post_url(text: str) -> bool:
         return False
-def should_download_asset(url: str, content_type: str | None = None) -> bool:
+def should_download_asset(
+    url: str,
+    content_type: str | None = None,
+    allowed_types: list[str] | None = None
+) -> bool:
     """
     Проверяет, нужно ли скачивать файл.
     Args:
         url: URL файла
         content_type: Content-Type из заголовков ответа (опционально)
+        allowed_types: Список разрешенных типов (image, video, audio, document).
+                       Если None или пустой — разрешено всё из ALLOWED_EXTENSIONS.
     """
     ext = Path(urlparse(url).path).suffix.lower()
+    # Если типы не указаны, используем глобальный фильтр
+    if not allowed_types:
+        if ext:
+            return ext in ALLOWED_EXTENSIONS
+        # Fallback для content-type (старое поведение)
+        if content_type:
+            basic_types = ['image/', 'video/', 'audio/', 'application/pdf']
+            return any(ct in content_type for ct in basic_types)
+        return False
+    # Если типы указаны, проверяем строго по ним
+    # 1. Проверка по расширению
     if ext:
-        return ext in ALLOWED_EXTENSIONS
+        for type_name in allowed_types:
+            if ext in ASSET_TYPES.get(type_name, set()):
+                return True
+        # Если расширение есть, но не совпало ни с одним разрешенным типом — запрещаем
+        return False
+    # 2. Проверка по Content-Type (если нет расширения)
     if content_type:
-        return any(ct in content_type for ct in ALLOWED_CONTENT_TYPES)
+        for type_name in allowed_types:
+            prefixes = CONTENT_TYPE_MAP.get(type_name, [])
+            if any(prefix in content_type for prefix in prefixes):
+                return True
     return False
@@ -107,17 +148,17 @@ def sanitize_filename(name: str) -> str:
     return name or 'unnamed'
-def extract_internal_links(content: str) -> list[tuple[str, str, str]]:
+def extract_internal_links(content: str) -> list[tuple[str, str, str, str]]:
     """
     Извлекает внутренние ссылки из контента.
-    Возвращает [(full_url, platform, post_id), ...]
+    Возвращает [(full_url, platform, author, post_id), ...]
     """
     links = []
     for match in SPONSR_LINK_PATTERN.finditer(content):
-        links.append((match.group(0), 'sponsr', match.group(2)))
+        links.append((match.group(0), 'sponsr', match.group('author'), match.group('post_id')))
     for match in BOOSTY_LINK_PATTERN.finditer(content):
-        links.append((match.group(0), 'boosty', match.group(2)))
+        links.append((match.group(0), 'boosty', match.group('author'), match.group('post_id')))
     return links

article_backup-0.2.2/tests/test_asset_dedup.py ADDED Viewed

@@ -0,0 +1,143 @@
+import tempfile
+import unittest
+from pathlib import Path
+from typing import cast
+from src.config import Auth, Config, Source
+from src.database import Database
+from src.downloader import BaseDownloader
+class _FakeResponse:
+    def __init__(self, content_type: str, body: bytes):
+        self.headers = {"Content-Type": content_type}
+        self._body = body
+    def raise_for_status(self):
+        return None
+    def iter_content(self, chunk_size: int = 8192):
+        # Yield at least one chunk to trigger file write.
+        yield self._body
+class _DummyDB:
+    pass
+class _DummyDownloader(BaseDownloader):
+    PLATFORM = "dummy"
+    MAX_WORKERS = 2
+    def _setup_session(self):
+        # Tests patch session.get directly.
+        return None
+    def fetch_posts_list(self):
+        raise NotImplementedError
+    def fetch_post(self, post_id: str):
+        raise NotImplementedError
+    def _parse_post(self, raw_data: dict):
+        raise NotImplementedError
+    def _to_markdown(self, post, asset_map):
+        raise NotImplementedError
+class AssetDedupTests(unittest.TestCase):
+    def test_download_assets_deduplicates_colliding_names(self):
+        with tempfile.TemporaryDirectory() as tmp:
+            tmp_path = Path(tmp)
+            assets_dir = tmp_path / "assets"
+            assets_dir.mkdir(parents=True, exist_ok=True)
+            config = Config(output_dir=tmp_path, auth=Auth())
+            source = Source(platform="sponsr", author="author", download_assets=True)
+            dl = _DummyDownloader(config, source, cast(Database, _DummyDB()))
+            def fake_get(url: str, stream: bool = True, timeout=None):
+                # URLs intentionally do not contain extensions.
+                return _FakeResponse("image/jpeg", body=(url + "\n").encode("ascii"))
+            dl.session.get = fake_get  # type: ignore[method-assign]
+            assets = [
+                {"url": "https://example.test/media/1", "alt": "same name"},
+                {"url": "https://example.test/media/2", "alt": "same name"},
+            ]
+            asset_map = dl._download_assets(assets, assets_dir)
+            self.assertEqual(set(asset_map.keys()), {a["url"] for a in assets})
+            filenames = list(asset_map.values())
+            self.assertEqual(len(filenames), 2)
+            self.assertNotEqual(filenames[0], filenames[1])
+            for fn in filenames:
+                self.assertTrue((assets_dir / fn).exists(), msg=f"missing file: {fn}")
+    def test_download_assets_deduplicates_when_file_exists(self):
+        with tempfile.TemporaryDirectory() as tmp:
+            tmp_path = Path(tmp)
+            assets_dir = tmp_path / "assets"
+            assets_dir.mkdir(parents=True, exist_ok=True)
+            config = Config(output_dir=tmp_path, auth=Auth())
+            source = Source(platform="sponsr", author="author", download_assets=True)
+            dl = _DummyDownloader(config, source, cast(Database, _DummyDB()))
+            # Pre-create a file with the expected base name.
+            base = dl._make_asset_filename(
+                "https://example.test/media/1",
+                "image/jpeg",
+                "same name",
+            )
+            (assets_dir / base).write_bytes(b"existing")
+            def fake_get(url: str, stream: bool = True, timeout=None):
+                return _FakeResponse("image/jpeg", body=b"downloaded")
+            dl.session.get = fake_get  # type: ignore[method-assign]
+            assets = [{"url": "https://example.test/media/1", "alt": "same name"}]
+            asset_map = dl._download_assets(assets, assets_dir)
+            self.assertIn("https://example.test/media/1", asset_map)
+            self.assertNotEqual(asset_map["https://example.test/media/1"], base)
+            self.assertTrue((assets_dir / asset_map["https://example.test/media/1"]).exists())
+    def test_download_assets_keeps_unique_names_under_parallelism(self):
+        with tempfile.TemporaryDirectory() as tmp:
+            tmp_path = Path(tmp)
+            assets_dir = tmp_path / "assets"
+            assets_dir.mkdir(parents=True, exist_ok=True)
+            config = Config(output_dir=tmp_path, auth=Auth())
+            source = Source(platform="sponsr", author="author", download_assets=True)
+            dl = _DummyDownloader(config, source, cast(Database, _DummyDB()))
+            dl.MAX_WORKERS = 5
+            def fake_get(url: str, stream: bool = True, timeout=None):
+                return _FakeResponse("image/jpeg", body=(url + "\n").encode("ascii"))
+            dl.session.get = fake_get  # type: ignore[method-assign]
+            assets = [
+                {"url": f"https://example.test/media/{i}", "alt": "same name"}
+                for i in range(20)
+            ]
+            asset_map = dl._download_assets(assets, assets_dir)
+            self.assertEqual(len(asset_map), 20)
+            filenames = list(asset_map.values())
+            self.assertEqual(len(set(filenames)), 20)
+            for fn in filenames:
+                self.assertTrue((assets_dir / fn).exists(), msg=f"missing file: {fn}")
+if __name__ == "__main__":
+    unittest.main()