PyPI - novel-downloader - Versions diffs - 1.3.3__py3-none-any.whl → 1.4.1__py3-none-any.whl - Mend

novel-downloader 1.3.3py3-none-any.whl → 1.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (211) hide show

novel_downloader/__init__.py +1 -1
novel_downloader/cli/clean.py +97 -78
novel_downloader/cli/config.py +177 -0
novel_downloader/cli/download.py +132 -87
novel_downloader/cli/export.py +77 -0
novel_downloader/cli/main.py +21 -28
novel_downloader/config/__init__.py +1 -25
novel_downloader/config/adapter.py +32 -31
novel_downloader/config/loader.py +3 -3
novel_downloader/config/site_rules.py +1 -2
novel_downloader/core/__init__.py +3 -6
novel_downloader/core/downloaders/__init__.py +10 -13
novel_downloader/core/downloaders/base.py +233 -0
novel_downloader/core/downloaders/biquge.py +27 -0
novel_downloader/core/downloaders/common.py +414 -0
novel_downloader/core/downloaders/esjzone.py +27 -0
novel_downloader/core/downloaders/linovelib.py +27 -0
novel_downloader/core/downloaders/qianbi.py +27 -0
novel_downloader/core/downloaders/qidian.py +352 -0
novel_downloader/core/downloaders/sfacg.py +27 -0
novel_downloader/core/downloaders/yamibo.py +27 -0
novel_downloader/core/exporters/__init__.py +37 -0
novel_downloader/core/{savers → exporters}/base.py +73 -39
novel_downloader/core/exporters/biquge.py +25 -0
novel_downloader/core/exporters/common/__init__.py +12 -0
novel_downloader/core/{savers → exporters}/common/epub.py +22 -22
novel_downloader/core/{savers/common/main_saver.py → exporters/common/main_exporter.py} +35 -40
novel_downloader/core/{savers → exporters}/common/txt.py +20 -23
novel_downloader/core/{savers → exporters}/epub_utils/__init__.py +8 -3
novel_downloader/core/{savers → exporters}/epub_utils/css_builder.py +2 -2
novel_downloader/core/{savers → exporters}/epub_utils/image_loader.py +46 -4
novel_downloader/core/{savers → exporters}/epub_utils/initializer.py +6 -4
novel_downloader/core/{savers → exporters}/epub_utils/text_to_html.py +3 -3
novel_downloader/core/{savers → exporters}/epub_utils/volume_intro.py +2 -2
novel_downloader/core/exporters/esjzone.py +25 -0
novel_downloader/core/exporters/linovelib/__init__.py +10 -0
novel_downloader/core/exporters/linovelib/epub.py +449 -0
novel_downloader/core/exporters/linovelib/main_exporter.py +127 -0
novel_downloader/core/exporters/linovelib/txt.py +129 -0
novel_downloader/core/exporters/qianbi.py +25 -0
novel_downloader/core/{savers → exporters}/qidian.py +8 -8
novel_downloader/core/exporters/sfacg.py +25 -0
novel_downloader/core/exporters/yamibo.py +25 -0
novel_downloader/core/factory/__init__.py +5 -17
novel_downloader/core/factory/downloader.py +24 -126
novel_downloader/core/factory/exporter.py +58 -0
novel_downloader/core/factory/fetcher.py +96 -0
novel_downloader/core/factory/parser.py +17 -12
novel_downloader/core/{requesters → fetchers}/__init__.py +22 -15
novel_downloader/core/{requesters → fetchers}/base/__init__.py +2 -4
novel_downloader/core/fetchers/base/browser.py +383 -0
novel_downloader/core/fetchers/base/rate_limiter.py +86 -0
novel_downloader/core/fetchers/base/session.py +419 -0
novel_downloader/core/fetchers/biquge/__init__.py +14 -0
novel_downloader/core/{requesters/biquge/async_session.py → fetchers/biquge/browser.py} +18 -6
novel_downloader/core/{requesters → fetchers}/biquge/session.py +23 -30
novel_downloader/core/fetchers/common/__init__.py +14 -0
novel_downloader/core/fetchers/common/browser.py +79 -0
novel_downloader/core/{requesters/common/async_session.py → fetchers/common/session.py} +8 -25
novel_downloader/core/fetchers/esjzone/__init__.py +14 -0
novel_downloader/core/fetchers/esjzone/browser.py +202 -0
novel_downloader/core/{requesters/esjzone/async_session.py → fetchers/esjzone/session.py} +62 -42
novel_downloader/core/fetchers/linovelib/__init__.py +14 -0
novel_downloader/core/fetchers/linovelib/browser.py +193 -0
novel_downloader/core/fetchers/linovelib/session.py +193 -0
novel_downloader/core/fetchers/qianbi/__init__.py +14 -0
novel_downloader/core/{requesters/qianbi/session.py → fetchers/qianbi/browser.py} +30 -48
novel_downloader/core/{requesters/qianbi/async_session.py → fetchers/qianbi/session.py} +18 -6
novel_downloader/core/fetchers/qidian/__init__.py +14 -0
novel_downloader/core/fetchers/qidian/browser.py +266 -0
novel_downloader/core/fetchers/qidian/session.py +326 -0
novel_downloader/core/fetchers/sfacg/__init__.py +14 -0
novel_downloader/core/fetchers/sfacg/browser.py +189 -0
novel_downloader/core/{requesters/sfacg/async_session.py → fetchers/sfacg/session.py} +43 -73
novel_downloader/core/fetchers/yamibo/__init__.py +14 -0
novel_downloader/core/fetchers/yamibo/browser.py +229 -0
novel_downloader/core/{requesters/yamibo/async_session.py → fetchers/yamibo/session.py} +62 -44
novel_downloader/core/interfaces/__init__.py +8 -12
novel_downloader/core/interfaces/downloader.py +54 -0
novel_downloader/core/interfaces/{saver.py → exporter.py} +12 -12
novel_downloader/core/interfaces/fetcher.py +162 -0
novel_downloader/core/interfaces/parser.py +6 -7
novel_downloader/core/parsers/__init__.py +5 -6
novel_downloader/core/parsers/base.py +9 -13
novel_downloader/core/parsers/biquge/main_parser.py +12 -13
novel_downloader/core/parsers/common/helper.py +3 -3
novel_downloader/core/parsers/common/main_parser.py +39 -34
novel_downloader/core/parsers/esjzone/main_parser.py +20 -14
novel_downloader/core/parsers/linovelib/__init__.py +10 -0
novel_downloader/core/parsers/linovelib/main_parser.py +210 -0
novel_downloader/core/parsers/qianbi/main_parser.py +21 -15
novel_downloader/core/parsers/qidian/__init__.py +2 -11
novel_downloader/core/parsers/qidian/book_info_parser.py +113 -0
novel_downloader/core/parsers/qidian/{browser/chapter_encrypted.py → chapter_encrypted.py} +162 -135
novel_downloader/core/parsers/qidian/chapter_normal.py +150 -0
novel_downloader/core/parsers/qidian/{session/chapter_router.py → chapter_router.py} +15 -15
novel_downloader/core/parsers/qidian/{browser/main_parser.py → main_parser.py} +49 -40
novel_downloader/core/parsers/qidian/utils/__init__.py +27 -0
novel_downloader/core/parsers/qidian/utils/decryptor_fetcher.py +145 -0
novel_downloader/core/parsers/qidian/{shared → utils}/helpers.py +41 -68
novel_downloader/core/parsers/qidian/{session → utils}/node_decryptor.py +64 -50
novel_downloader/core/parsers/sfacg/main_parser.py +12 -12
novel_downloader/core/parsers/yamibo/main_parser.py +10 -10
novel_downloader/locales/en.json +18 -2
novel_downloader/locales/zh.json +18 -2
novel_downloader/models/__init__.py +64 -0
novel_downloader/models/browser.py +21 -0
novel_downloader/models/chapter.py +25 -0
novel_downloader/models/config.py +100 -0
novel_downloader/models/login.py +20 -0
novel_downloader/models/site_rules.py +99 -0
novel_downloader/models/tasks.py +33 -0
novel_downloader/models/types.py +15 -0
novel_downloader/resources/config/settings.toml +31 -25
novel_downloader/resources/json/linovelib_font_map.json +3573 -0
novel_downloader/tui/__init__.py +7 -0
novel_downloader/tui/app.py +32 -0
novel_downloader/tui/main.py +17 -0
novel_downloader/tui/screens/__init__.py +14 -0
novel_downloader/tui/screens/home.py +191 -0
novel_downloader/tui/screens/login.py +74 -0
novel_downloader/tui/styles/home_layout.tcss +79 -0
novel_downloader/tui/widgets/richlog_handler.py +24 -0
novel_downloader/utils/__init__.py +6 -0
novel_downloader/utils/chapter_storage.py +25 -38
novel_downloader/utils/constants.py +11 -5
novel_downloader/utils/cookies.py +66 -0
novel_downloader/utils/crypto_utils.py +1 -74
novel_downloader/utils/fontocr/ocr_v1.py +2 -1
novel_downloader/utils/fontocr/ocr_v2.py +2 -2
novel_downloader/utils/hash_store.py +10 -18
novel_downloader/utils/hash_utils.py +3 -2
novel_downloader/utils/logger.py +2 -3
novel_downloader/utils/network.py +2 -1
novel_downloader/utils/text_utils/chapter_formatting.py +6 -1
novel_downloader/utils/text_utils/font_mapping.py +1 -1
novel_downloader/utils/text_utils/text_cleaning.py +1 -1
novel_downloader/utils/time_utils/datetime_utils.py +3 -3
novel_downloader/utils/time_utils/sleep_utils.py +1 -1
{novel_downloader-1.3.3.dist-info → novel_downloader-1.4.1.dist-info}/METADATA +69 -35
novel_downloader-1.4.1.dist-info/RECORD +170 -0
{novel_downloader-1.3.3.dist-info → novel_downloader-1.4.1.dist-info}/WHEEL +1 -1
{novel_downloader-1.3.3.dist-info → novel_downloader-1.4.1.dist-info}/entry_points.txt +1 -0
novel_downloader/cli/interactive.py +0 -66
novel_downloader/cli/settings.py +0 -177
novel_downloader/config/models.py +0 -187
novel_downloader/core/downloaders/base/__init__.py +0 -14
novel_downloader/core/downloaders/base/base_async.py +0 -153
novel_downloader/core/downloaders/base/base_sync.py +0 -208
novel_downloader/core/downloaders/biquge/__init__.py +0 -14
novel_downloader/core/downloaders/biquge/biquge_async.py +0 -27
novel_downloader/core/downloaders/biquge/biquge_sync.py +0 -27
novel_downloader/core/downloaders/common/__init__.py +0 -14
novel_downloader/core/downloaders/common/common_async.py +0 -210
novel_downloader/core/downloaders/common/common_sync.py +0 -202
novel_downloader/core/downloaders/esjzone/__init__.py +0 -14
novel_downloader/core/downloaders/esjzone/esjzone_async.py +0 -27
novel_downloader/core/downloaders/esjzone/esjzone_sync.py +0 -27
novel_downloader/core/downloaders/qianbi/__init__.py +0 -14
novel_downloader/core/downloaders/qianbi/qianbi_async.py +0 -27
novel_downloader/core/downloaders/qianbi/qianbi_sync.py +0 -27
novel_downloader/core/downloaders/qidian/__init__.py +0 -10
novel_downloader/core/downloaders/qidian/qidian_sync.py +0 -219
novel_downloader/core/downloaders/sfacg/__init__.py +0 -14
novel_downloader/core/downloaders/sfacg/sfacg_async.py +0 -27
novel_downloader/core/downloaders/sfacg/sfacg_sync.py +0 -27
novel_downloader/core/downloaders/yamibo/__init__.py +0 -14
novel_downloader/core/downloaders/yamibo/yamibo_async.py +0 -27
novel_downloader/core/downloaders/yamibo/yamibo_sync.py +0 -27
novel_downloader/core/factory/requester.py +0 -144
novel_downloader/core/factory/saver.py +0 -56
novel_downloader/core/interfaces/async_downloader.py +0 -36
novel_downloader/core/interfaces/async_requester.py +0 -84
novel_downloader/core/interfaces/sync_downloader.py +0 -36
novel_downloader/core/interfaces/sync_requester.py +0 -82
novel_downloader/core/parsers/qidian/browser/__init__.py +0 -12
novel_downloader/core/parsers/qidian/browser/chapter_normal.py +0 -93
novel_downloader/core/parsers/qidian/browser/chapter_router.py +0 -71
novel_downloader/core/parsers/qidian/session/__init__.py +0 -12
novel_downloader/core/parsers/qidian/session/chapter_encrypted.py +0 -443
novel_downloader/core/parsers/qidian/session/chapter_normal.py +0 -115
novel_downloader/core/parsers/qidian/session/main_parser.py +0 -128
novel_downloader/core/parsers/qidian/shared/__init__.py +0 -37
novel_downloader/core/parsers/qidian/shared/book_info_parser.py +0 -150
novel_downloader/core/requesters/base/async_session.py +0 -410
novel_downloader/core/requesters/base/browser.py +0 -337
novel_downloader/core/requesters/base/session.py +0 -378
novel_downloader/core/requesters/biquge/__init__.py +0 -14
novel_downloader/core/requesters/common/__init__.py +0 -17
novel_downloader/core/requesters/common/session.py +0 -113
novel_downloader/core/requesters/esjzone/__init__.py +0 -13
novel_downloader/core/requesters/esjzone/session.py +0 -235
novel_downloader/core/requesters/qianbi/__init__.py +0 -13
novel_downloader/core/requesters/qidian/__init__.py +0 -21
novel_downloader/core/requesters/qidian/broswer.py +0 -307
novel_downloader/core/requesters/qidian/session.py +0 -290
novel_downloader/core/requesters/sfacg/__init__.py +0 -13
novel_downloader/core/requesters/sfacg/session.py +0 -242
novel_downloader/core/requesters/yamibo/__init__.py +0 -13
novel_downloader/core/requesters/yamibo/session.py +0 -237
novel_downloader/core/savers/__init__.py +0 -34
novel_downloader/core/savers/biquge.py +0 -25
novel_downloader/core/savers/common/__init__.py +0 -12
novel_downloader/core/savers/esjzone.py +0 -25
novel_downloader/core/savers/qianbi.py +0 -25
novel_downloader/core/savers/sfacg.py +0 -25
novel_downloader/core/savers/yamibo.py +0 -25
novel_downloader/resources/config/rules.toml +0 -196
novel_downloader-1.3.3.dist-info/RECORD +0 -166
{novel_downloader-1.3.3.dist-info → novel_downloader-1.4.1.dist-info}/licenses/LICENSE +0 -0
{novel_downloader-1.3.3.dist-info → novel_downloader-1.4.1.dist-info}/top_level.txt +0 -0

novel_downloader/core/parsers/esjzone/main_parser.py CHANGED Viewed

@@ -5,13 +5,13 @@ novel_downloader.core.parsers.esjzone.main_parser
 """
+import re
 from typing import Any
-from lxml import etree
-from lxml.etree import _Element
+from lxml import html
 from novel_downloader.core.parsers.base import BaseParser
-from novel_downloader.utils.chapter_storage import ChapterDict
+from novel_downloader.models import ChapterDict
 class EsjzoneParser(BaseParser):
@@ -40,7 +40,7 @@ class EsjzoneParser(BaseParser):
     def parse_book_info(
         self,
-        html_str: list[str],
+        html_list: list[str],
         **kwargs: Any,
     ) -> dict[str, Any]:
         """
@@ -49,12 +49,12 @@ class EsjzoneParser(BaseParser):
         注: 由于网站使用了多种不同的分卷格式, 已经尝试兼容常见情况,
         但仍可能存在未覆盖的 cases
-        :param html: Raw HTML of the book info page.
+        :param html_list: Raw HTML of the book info page.
         :return: Parsed metadata and chapter structure as a dictionary.
         """
-        if not html_str or self._is_forum_page(html_str):
+        if not html_list or self._is_forum_page(html_list):
             return {}
-        tree = etree.HTML(html_str[0])
+        tree = html.fromstring(html_list[0])
         result: dict[str, Any] = {}
         result["book_name"] = self._get_text(tree, self._BOOK_NAME_XPATH)
@@ -75,8 +75,14 @@ class EsjzoneParser(BaseParser):
         volumes: list[dict[str, Any]] = []
         current_vol: dict[str, Any] = {}
+        def _is_garbage_title(name: str) -> bool:
+            stripped = name.strip()
+            return not stripped or bool(re.fullmatch(r"[\W_]+", stripped))
         def _start_volume(name: str) -> None:
             nonlocal current_vol
+            if _is_garbage_title(name):
+                return
             name = name.strip() or "未命名卷"
             if name == "未命名卷" and current_vol is not None:
                 return
@@ -94,7 +100,7 @@ class EsjzoneParser(BaseParser):
             tag = node.tag.lower()
             if tag == "details":
-                # ---- DETAILS‐based layout ----
+                # ---- DETAILS-based layout ----
                 summary = node.find("summary")
                 vol_name = summary.text if summary is not None else "未命名卷"
                 _start_volume(vol_name)
@@ -134,20 +140,20 @@ class EsjzoneParser(BaseParser):
     def parse_chapter(
         self,
-        html_str: list[str],
+        html_list: list[str],
         chapter_id: str,
         **kwargs: Any,
     ) -> ChapterDict | None:
         """
         Parse a single chapter page and extract clean text or simplified HTML.
-        :param html: Raw HTML of the chapter page.
+        :param html_list: Raw HTML of the chapter page.
         :param chapter_id: Identifier of the chapter being parsed.
         :return: Cleaned chapter content as plain text or minimal HTML.
         """
-        if not html_str or self._is_forum_page(html_str):
+        if not html_list or self._is_forum_page(html_list):
             return None
-        tree = etree.HTML(html_str[0], parser=None)
+        tree = html.fromstring(html_list[0], parser=None)
         content_lines: list[str] = []
         content_nodes = tree.xpath(self._CHAPTER_CONTENT_NODES_XPATH)
@@ -198,7 +204,7 @@ class EsjzoneParser(BaseParser):
         if not html_str:
             return False
-        tree = etree.HTML(html_str[0])
+        tree = html.fromstring(html_str[0])
         page_title = tree.xpath('string(//div[@class="page-title"]//h1)').strip()
         if page_title != "論壇":
             return False
@@ -208,7 +214,7 @@ class EsjzoneParser(BaseParser):
     @staticmethod
     def _get_text(
-        tree: _Element,
+        tree: html.HtmlElement,
         xpath: str,
         join: bool = False,
         clean_comma: bool = False,

novel_downloader/core/parsers/linovelib/__init__.py ADDED Viewed

@@ -0,0 +1,10 @@
+#!/usr/bin/env python3
+"""
+novel_downloader.core.parsers.linovelib
+---------------------------------------
+"""
+from .main_parser import LinovelibParser
+__all__ = ["LinovelibParser"]

novel_downloader/core/parsers/linovelib/main_parser.py ADDED Viewed

@@ -0,0 +1,210 @@
+#!/usr/bin/env python3
+"""
+novel_downloader.core.parsers.linovelib.main_parser
+---------------------------------------------------
+"""
+import json
+from itertools import islice
+from pathlib import PurePosixPath
+from typing import Any
+from lxml import html
+from novel_downloader.core.parsers.base import BaseParser
+from novel_downloader.models import ChapterDict
+from novel_downloader.utils.constants import LINOVELIB_FONT_MAP_PATH
+class LinovelibParser(BaseParser):
+    """ """
+    # Book info XPaths
+    _BOOK_NAME_XPATH = '//div[@class="book-info"]/h1[@class="book-name"]/text()'
+    _AUTHOR_XPATH = '//div[@class="au-name"]/a[1]/text()'
+    _COVER_URL_XPATH = '//div[contains(@class, "book-img")]//img/@src'
+    _UPDATE_TIME_XPATH = (
+        '//div[@class="nums"]/span[contains(text(), "最后更新")]/text()'  # noqa: E501
+    )
+    _SERIAL_STATUS_XPATH = '//div[@class="book-label"]/a[@class="state"]/text()'
+    _WORD_COUNT_XPATH = '//div[@class="nums"]/span[contains(text(), "字数")]/text()'
+    _SUMMARY_XPATH = '//div[contains(@class, "book-dec")]/p//text()'
+    _CHAPTERS_XPATH = '//div[@class="book-new-chapter"]/div[contains(@class, "tit")]/a'
+    # Chapter XPaths
+    _CHAPTER_TITLE_XPATH = "//div[@id='mlfy_main_text']/h1/text()"
+    _CHAPTER_CONTENT_NODES_XPATH = "//div[@id='TextContent']/*[self::p or self::img]"
+    _FONT_MAP: dict[str, str] = json.loads(
+        LINOVELIB_FONT_MAP_PATH.read_text(encoding="utf-8")
+    )  # 注意 json 前 3500 条的内容不必要不修改
+    _BLANK_SET: set[str] = set(islice(_FONT_MAP.values(), 3500))
+    def parse_book_info(
+        self,
+        html_list: list[str],
+        **kwargs: Any,
+    ) -> dict[str, Any]:
+        """
+        Parse a book info page and extract metadata and chapter structure.
+        :param html_list: Raw HTML of the book info page.
+        :return: Parsed metadata and chapter structure as a dictionary.
+        """
+        if not html_list:
+            return {}
+        info_tree = html.fromstring(html_list[0])
+        result: dict[str, Any] = {}
+        result["book_name"] = self._safe_xpath(info_tree, self._BOOK_NAME_XPATH)
+        result["author"] = self._safe_xpath(info_tree, self._AUTHOR_XPATH)
+        result["cover_url"] = self._safe_xpath(info_tree, self._COVER_URL_XPATH)
+        result["update_time"] = self._safe_xpath(
+            info_tree, self._UPDATE_TIME_XPATH, replace=("最后更新：", "")
+        )
+        result["serial_status"] = self._safe_xpath(info_tree, self._SERIAL_STATUS_XPATH)
+        result["word_count"] = self._safe_xpath(
+            info_tree, self._WORD_COUNT_XPATH, replace=("字数：", "")
+        )
+        result["summary"] = self._extract_intro(info_tree, self._SUMMARY_XPATH)
+        vol_pages = html_list[1:]
+        volumes: list[dict[str, Any]] = []
+        for vol_page in vol_pages:
+            vol_tree = html.fromstring(vol_page)
+            volume_cover = self._safe_xpath(vol_tree, self._COVER_URL_XPATH)
+            volume_name = self._safe_xpath(vol_tree, self._BOOK_NAME_XPATH)
+            update_time = self._safe_xpath(
+                vol_tree, self._UPDATE_TIME_XPATH, replace=("最后更新：", "")
+            )
+            word_count = self._safe_xpath(
+                vol_tree, self._WORD_COUNT_XPATH, replace=("字数：", "")
+            )
+            volume_intro = self._extract_intro(vol_tree, self._SUMMARY_XPATH)
+            chapters = []
+            chapter_elements = vol_tree.xpath(self._CHAPTERS_XPATH)
+            for a in chapter_elements:
+                title = a.text.strip()
+                url = a.attrib.get("href", "").strip()
+                chap_path = PurePosixPath(url.rstrip("/"))
+                chapters.append(
+                    {"title": title, "url": url, "chapterId": chap_path.stem}
+                )
+            volumes.append(
+                {
+                    "volume_name": volume_name,
+                    "volume_cover": volume_cover,
+                    "update_time": update_time,
+                    "word_count": word_count,
+                    "volume_intro": volume_intro,
+                    "chapters": chapters,
+                }
+            )
+        result["volumes"] = volumes
+        return result
+    def parse_chapter(
+        self,
+        html_list: list[str],
+        chapter_id: str,
+        **kwargs: Any,
+    ) -> ChapterDict | None:
+        """
+        Parse chapter pages and extract clean text or simplified HTML.
+        :param html_list: Raw HTML of the chapter page.
+        :param chapter_id: Identifier of the chapter being parsed.
+        :return: Cleaned chapter content as plain text or minimal HTML.
+        """
+        if not html_list:
+            return None
+        title_text: str = ""
+        contents: list[str] = []
+        for curr_html in html_list:
+            is_encrypted = self._is_encrypted(curr_html)
+            tree = html.fromstring(curr_html)
+            if not title_text:
+                titles = tree.xpath(self._CHAPTER_TITLE_XPATH)
+                if titles:
+                    title_text = titles[0].strip()
+            content_container = tree.xpath("//div[@id='TextContent']")
+            if not content_container:
+                continue
+            container = content_container[0]
+            nodes = container.xpath("./p | ./img")
+            all_p = container.xpath("./p")
+            total_p = len(all_p)
+            p_counter = 0
+            for node in nodes:
+                tag = node.tag.lower()
+                if tag == "p":
+                    raw_text = "".join(node.xpath(".//text()")).strip()
+                    if not raw_text:
+                        continue
+                    if is_encrypted and p_counter == total_p - 2:
+                        raw_text = self._apply_font_map(raw_text)
+                    contents.append(raw_text)
+                    p_counter += 1
+                elif tag == "img":
+                    src = node.get("data-src") or node.get("src", "")
+                    src = src.strip()
+                    if src:
+                        contents.append(f'<img src="{src}" />')
+        return {
+            "id": chapter_id,
+            "title": title_text,
+            "content": "\n\n".join(contents),
+            "extra": {"site": "linovelib"},
+        }
+    def _safe_xpath(
+        self,
+        tree: html.HtmlElement,
+        path: str,
+        replace: tuple[str, str] | None = None,
+    ) -> str:
+        result = tree.xpath(path)
+        if not result:
+            return ""
+        value: str = result[0].strip()
+        if replace:
+            old, new = replace
+            value = value.replace(old, new)
+        return value
+    @staticmethod
+    def _extract_intro(tree: html.HtmlElement, xpath: str) -> str:
+        paragraphs = tree.xpath(xpath.replace("//text()", ""))
+        lines = []
+        for p in paragraphs:
+            text_segments = p.xpath(".//text()")
+            cleaned = [seg.strip() for seg in text_segments if seg.strip()]
+            lines.append("\n".join(cleaned))
+        return "\n\n".join(lines)
+    @staticmethod
+    def _is_encrypted(html: str) -> bool:
+        """
+        Determine whether HTML content likely uses encrypted or obfuscated fonts.
+        """
+        return "CSSStyleSheet" in html
+    @classmethod
+    def _apply_font_map(cls, text: str) -> str:
+        """
+        Apply font mapping to the input text,
+        skipping characters in blank set.
+        """
+        return "".join(cls._FONT_MAP.get(c, c) for c in text if c not in cls._BLANK_SET)

novel_downloader/core/parsers/qianbi/main_parser.py CHANGED Viewed

@@ -1,6 +1,6 @@
 #!/usr/bin/env python3
 """
-novel_downloader.core.parsers.biquge.main_parser
+novel_downloader.core.parsers.qianbi.main_parser
 ------------------------------------------------
 """
@@ -8,10 +8,10 @@ novel_downloader.core.parsers.biquge.main_parser
 from datetime import datetime
 from typing import Any
-from lxml import etree
+from lxml import html
 from novel_downloader.core.parsers.base import BaseParser
-from novel_downloader.utils.chapter_storage import ChapterDict
+from novel_downloader.models import ChapterDict
 class QianbiParser(BaseParser):
@@ -19,20 +19,20 @@ class QianbiParser(BaseParser):
     def parse_book_info(
         self,
-        html_str: list[str],
+        html_list: list[str],
         **kwargs: Any,
     ) -> dict[str, Any]:
         """
         Parse a book info page and extract metadata and chapter structure.
-        :param html: Raw HTML of the book info page.
+        :param html_list: Raw HTML of the book info pages.
         :return: Parsed metadata and chapter structure as a dictionary.
         """
-        if len(html_str) < 2:
+        if len(html_list) < 2:
             return {}
-        info_tree = etree.HTML(html_str[0])
-        catalog_tree = etree.HTML(html_str[1])
+        info_tree = html.fromstring(html_list[0])
+        catalog_tree = html.fromstring(html_list[1])
         result: dict[str, Any] = {}
         title = info_tree.xpath('//h1[@class="page-title"]/text()')
@@ -56,9 +56,7 @@ class QianbiParser(BaseParser):
             '//div[@class="novel-info-item novel-info-content"]/span'
         )
         if summary_node and summary_node[0] is not None:
-            result["summary"] = etree.tostring(
-                summary_node[0], encoding="unicode", method="text"
-            ).strip()
+            result["summary"] = summary_node[0].text_content().strip()
         else:
             result["summary"] = ""
@@ -85,6 +83,8 @@ class QianbiParser(BaseParser):
                 if a_tag:
                     title = a_tag[0].xpath(".//span/text()")
                     href = a_tag[0].attrib.get("href", "")
+                    if href == "javascript:cid(0)":
+                        href = ""
                     chapter_id = (
                         href.split("/")[-1].replace(".html", "") if href else ""
                     )
@@ -105,20 +105,20 @@ class QianbiParser(BaseParser):
     def parse_chapter(
         self,
-        html_str: list[str],
+        html_list: list[str],
         chapter_id: str,
         **kwargs: Any,
     ) -> ChapterDict | None:
         """
         Parse a single chapter page and extract clean text or simplified HTML.
-        :param html: Raw HTML of the chapter page.
+        :param html_list: Raw HTML of the chapter page.
         :param chapter_id: Identifier of the chapter being parsed.
         :return: Cleaned chapter content as plain text or minimal HTML.
         """
-        if not html_str:
+        if not html_list:
             return None
-        tree = etree.HTML(html_str[0])
+        tree = html.fromstring(html_list[0])
         paras = tree.xpath('//div[@class="article-content"]/p/text()')
         content_text = "\n\n".join(p.strip() for p in paras if p.strip())
@@ -131,6 +131,11 @@ class QianbiParser(BaseParser):
         volume = tree.xpath('//h3[@class="text-muted"]/text()')
         volume_text = volume[0].strip() if volume else ""
+        next_href = tree.xpath('//div[@class="footer"]/a[@class="f-right"]/@href')
+        next_chapter_id = (
+            next_href[0].split("/")[-1].replace(".html", "") if next_href else ""
+        )
         return {
             "id": chapter_id,
             "title": title_text,
@@ -138,5 +143,6 @@ class QianbiParser(BaseParser):
             "extra": {
                 "site": "qianbi",
                 "volume": volume_text,
+                "next_chapter_id": next_chapter_id,
             },
         }

novel_downloader/core/parsers/qidian/__init__.py CHANGED Viewed

@@ -3,17 +3,8 @@
 novel_downloader.core.parsers.qidian
 ------------------------------------
-This package provides parsing implementations for the Qidian platform.
-Modules:
-- browser: Contains `QidianBrowserParser` for browser-rendered page parsing.
-- session: Contains `QidianSessionParser` for session page parsing.
 """
-from .browser import QidianBrowserParser
-from .session import QidianSessionParser
+from .main_parser import QidianParser
-__all__ = [
-    "QidianBrowserParser",
-    "QidianSessionParser",
-]
+__all__ = ["QidianParser"]

novel_downloader/core/parsers/qidian/book_info_parser.py ADDED Viewed

@@ -0,0 +1,113 @@
+#!/usr/bin/env python3
+"""
+novel_downloader.core.parsers.qidian.book_info_parser
+-----------------------------------------------------
+This module provides parsing of Qidian book info pages.
+It extracts metadata such as title, author, cover URL, update
+time, status, word count, summary, and volume-chapter structure.
+"""
+import logging
+from typing import Any
+from lxml import html
+logger = logging.getLogger(__name__)
+_AUTHOR_XPATH = (
+    'string(//div[contains(@class, "book-info")]//a[contains(@class, "writer")])'
+)
+def _chapter_url_to_id(url: str) -> str:
+    return url.rstrip("/").split("/")[-1]
+def _get_volume_name(
+    vol_elem: html.HtmlElement,
+) -> str:
+    """
+    Extracts the volume title from a <div class="volume"> element using lxml.
+    Ignores <a> tags, and extracts text from other elements.
+    """
+    h3_candidates = vol_elem.xpath(".//h3")
+    if not h3_candidates:
+        return ""
+    texts = vol_elem.xpath(".//h3//text()[not(ancestor::a)]")
+    full_text = "".join(texts).strip()
+    return full_text.split(chr(183))[0].strip()
+def parse_book_info(html_str: str) -> dict[str, Any]:
+    """
+    Extract metadata: title, author, cover_url, update_time, status,
+    word_count, summary, and volumes with chapters.
+    :param html_str: Raw HTML of the book info page.
+    :return: A dict containing book metadata.
+    """
+    info: dict[str, Any] = {}
+    try:
+        doc = html.fromstring(html_str)
+        book_name = doc.xpath('string(//h1/em[@id="bookName"])').strip()
+        info["book_name"] = book_name
+        author = doc.xpath(_AUTHOR_XPATH).strip()
+        info["author"] = author
+        cover_url = doc.xpath('string(//div[@class="book-img"]//img/@src)').strip()
+        info["cover_url"] = cover_url
+        update_raw = (
+            doc.xpath('string(//span[contains(@class, "update-time")])')
+            .replace("更新时间", "")
+            .strip()
+        )
+        info["update_time"] = update_raw
+        status = doc.xpath('string(//p[@class="tag"]/span[@class="blue"][1])').strip()
+        info["serial_status"] = status
+        tags = doc.xpath('//p[@class="tag"]/a[@class="red"]/text()')
+        info["tags"] = [t.strip() for t in tags if t.strip()]
+        wc_number = doc.xpath("string(//p[em and cite][1]/em[1])").strip()
+        wc_unit = doc.xpath("string(//p[em and cite][1]/cite[1])").strip()
+        info["word_count"] = (
+            (wc_number + wc_unit) if wc_number and wc_unit else "Unknown"
+        )
+        summary = doc.xpath('string(//p[@class="intro"])').strip()
+        info["summary_brief"] = summary
+        intro_list = doc.xpath('//div[@class="book-intro"]/p')[0]
+        detail_intro = "\n".join(intro_list.itertext()).strip()
+        info["summary"] = detail_intro
+        volumes = []
+        for vol_div in doc.xpath('//div[@class="volume-wrap"]/div[@class="volume"]'):
+            volume_name = _get_volume_name(vol_div)
+            chapters = []
+            for li in vol_div.xpath(".//li"):
+                a = li.xpath(".//a")[0] if li.xpath(".//a") else None
+                if a is None or "href" not in a.attrib:
+                    continue
+                href = a.attrib["href"].strip()
+                title = "".join(a.itertext()).strip()
+                chapters.append(
+                    {
+                        "title": title,
+                        "url": href,
+                        "chapterId": _chapter_url_to_id(href),
+                    }
+                )
+            volumes.append({"volume_name": volume_name, "chapters": chapters})
+        info["volumes"] = volumes
+    except Exception as e:
+        logger.warning("[Parser] Error parsing book info: %s", e)
+    return info

novel-downloader 1.3.3__py3-none-any.whl → 1.4.1__py3-none-any.whl

novel-downloader 1.3.3py3-none-any.whl → 1.4.1py3-none-any.whl