PyPI - novel-downloader - Versions diffs - 1.3.2__py3-none-any.whl → 1.4.0__py3-none-any.whl - Mend

novel-downloader 1.3.2py3-none-any.whl → 1.4.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (213) hide show

novel_downloader/__init__.py +1 -1
novel_downloader/cli/clean.py +97 -78
novel_downloader/cli/config.py +177 -0
novel_downloader/cli/download.py +132 -87
novel_downloader/cli/export.py +77 -0
novel_downloader/cli/main.py +21 -28
novel_downloader/config/__init__.py +1 -25
novel_downloader/config/adapter.py +32 -31
novel_downloader/config/loader.py +3 -3
novel_downloader/config/site_rules.py +1 -2
novel_downloader/core/__init__.py +3 -6
novel_downloader/core/downloaders/__init__.py +10 -13
novel_downloader/core/downloaders/base.py +233 -0
novel_downloader/core/downloaders/biquge.py +27 -0
novel_downloader/core/downloaders/common.py +414 -0
novel_downloader/core/downloaders/esjzone.py +27 -0
novel_downloader/core/downloaders/linovelib.py +27 -0
novel_downloader/core/downloaders/qianbi.py +27 -0
novel_downloader/core/downloaders/qidian.py +352 -0
novel_downloader/core/downloaders/sfacg.py +27 -0
novel_downloader/core/downloaders/yamibo.py +27 -0
novel_downloader/core/exporters/__init__.py +37 -0
novel_downloader/core/{savers → exporters}/base.py +73 -44
novel_downloader/core/exporters/biquge.py +25 -0
novel_downloader/core/exporters/common/__init__.py +12 -0
novel_downloader/core/{savers → exporters}/common/epub.py +40 -52
novel_downloader/core/{savers/common/main_saver.py → exporters/common/main_exporter.py} +36 -39
novel_downloader/core/{savers → exporters}/common/txt.py +20 -24
novel_downloader/core/exporters/epub_utils/__init__.py +40 -0
novel_downloader/core/{savers → exporters}/epub_utils/css_builder.py +2 -1
novel_downloader/core/exporters/epub_utils/image_loader.py +131 -0
novel_downloader/core/{savers → exporters}/epub_utils/initializer.py +6 -3
novel_downloader/core/{savers → exporters}/epub_utils/text_to_html.py +49 -2
novel_downloader/core/{savers → exporters}/epub_utils/volume_intro.py +2 -1
novel_downloader/core/exporters/esjzone.py +25 -0
novel_downloader/core/exporters/linovelib/__init__.py +10 -0
novel_downloader/core/exporters/linovelib/epub.py +449 -0
novel_downloader/core/exporters/linovelib/main_exporter.py +127 -0
novel_downloader/core/exporters/linovelib/txt.py +129 -0
novel_downloader/core/exporters/qianbi.py +25 -0
novel_downloader/core/{savers → exporters}/qidian.py +8 -8
novel_downloader/core/exporters/sfacg.py +25 -0
novel_downloader/core/exporters/yamibo.py +25 -0
novel_downloader/core/factory/__init__.py +5 -17
novel_downloader/core/factory/downloader.py +24 -126
novel_downloader/core/factory/exporter.py +58 -0
novel_downloader/core/factory/fetcher.py +96 -0
novel_downloader/core/factory/parser.py +17 -12
novel_downloader/core/{requesters → fetchers}/__init__.py +22 -15
novel_downloader/core/{requesters → fetchers}/base/__init__.py +2 -4
novel_downloader/core/fetchers/base/browser.py +383 -0
novel_downloader/core/fetchers/base/rate_limiter.py +86 -0
novel_downloader/core/fetchers/base/session.py +419 -0
novel_downloader/core/fetchers/biquge/__init__.py +14 -0
novel_downloader/core/{requesters/biquge/async_session.py → fetchers/biquge/browser.py} +18 -6
novel_downloader/core/{requesters → fetchers}/biquge/session.py +23 -30
novel_downloader/core/fetchers/common/__init__.py +14 -0
novel_downloader/core/fetchers/common/browser.py +79 -0
novel_downloader/core/{requesters/common/async_session.py → fetchers/common/session.py} +8 -25
novel_downloader/core/fetchers/esjzone/__init__.py +14 -0
novel_downloader/core/fetchers/esjzone/browser.py +202 -0
novel_downloader/core/{requesters/esjzone/async_session.py → fetchers/esjzone/session.py} +62 -42
novel_downloader/core/fetchers/linovelib/__init__.py +14 -0
novel_downloader/core/fetchers/linovelib/browser.py +178 -0
novel_downloader/core/fetchers/linovelib/session.py +178 -0
novel_downloader/core/fetchers/qianbi/__init__.py +14 -0
novel_downloader/core/{requesters/qianbi/session.py → fetchers/qianbi/browser.py} +30 -48
novel_downloader/core/{requesters/qianbi/async_session.py → fetchers/qianbi/session.py} +18 -6
novel_downloader/core/fetchers/qidian/__init__.py +14 -0
novel_downloader/core/fetchers/qidian/browser.py +266 -0
novel_downloader/core/fetchers/qidian/session.py +326 -0
novel_downloader/core/fetchers/sfacg/__init__.py +14 -0
novel_downloader/core/fetchers/sfacg/browser.py +189 -0
novel_downloader/core/{requesters/sfacg/async_session.py → fetchers/sfacg/session.py} +43 -73
novel_downloader/core/fetchers/yamibo/__init__.py +14 -0
novel_downloader/core/fetchers/yamibo/browser.py +229 -0
novel_downloader/core/{requesters/yamibo/async_session.py → fetchers/yamibo/session.py} +62 -44
novel_downloader/core/interfaces/__init__.py +8 -12
novel_downloader/core/interfaces/downloader.py +54 -0
novel_downloader/core/interfaces/{saver.py → exporter.py} +12 -12
novel_downloader/core/interfaces/fetcher.py +162 -0
novel_downloader/core/interfaces/parser.py +6 -7
novel_downloader/core/parsers/__init__.py +5 -6
novel_downloader/core/parsers/base.py +9 -13
novel_downloader/core/parsers/biquge/main_parser.py +12 -13
novel_downloader/core/parsers/common/helper.py +3 -3
novel_downloader/core/parsers/common/main_parser.py +39 -34
novel_downloader/core/parsers/esjzone/main_parser.py +24 -17
novel_downloader/core/parsers/linovelib/__init__.py +10 -0
novel_downloader/core/parsers/linovelib/main_parser.py +210 -0
novel_downloader/core/parsers/qianbi/main_parser.py +21 -15
novel_downloader/core/parsers/qidian/__init__.py +2 -11
novel_downloader/core/parsers/qidian/book_info_parser.py +113 -0
novel_downloader/core/parsers/qidian/{browser/chapter_encrypted.py → chapter_encrypted.py} +162 -135
novel_downloader/core/parsers/qidian/chapter_normal.py +150 -0
novel_downloader/core/parsers/qidian/{session/chapter_router.py → chapter_router.py} +15 -15
novel_downloader/core/parsers/qidian/{browser/main_parser.py → main_parser.py} +49 -40
novel_downloader/core/parsers/qidian/utils/__init__.py +27 -0
novel_downloader/core/parsers/qidian/utils/decryptor_fetcher.py +145 -0
novel_downloader/core/parsers/qidian/{shared → utils}/helpers.py +41 -68
novel_downloader/core/parsers/qidian/{session → utils}/node_decryptor.py +64 -50
novel_downloader/core/parsers/sfacg/main_parser.py +12 -12
novel_downloader/core/parsers/yamibo/main_parser.py +10 -10
novel_downloader/locales/en.json +18 -2
novel_downloader/locales/zh.json +18 -2
novel_downloader/models/__init__.py +64 -0
novel_downloader/models/browser.py +21 -0
novel_downloader/models/chapter.py +25 -0
novel_downloader/models/config.py +100 -0
novel_downloader/models/login.py +20 -0
novel_downloader/models/site_rules.py +99 -0
novel_downloader/models/tasks.py +33 -0
novel_downloader/models/types.py +15 -0
novel_downloader/resources/config/settings.toml +31 -25
novel_downloader/resources/json/linovelib_font_map.json +3573 -0
novel_downloader/tui/__init__.py +7 -0
novel_downloader/tui/app.py +32 -0
novel_downloader/tui/main.py +17 -0
novel_downloader/tui/screens/__init__.py +14 -0
novel_downloader/tui/screens/home.py +191 -0
novel_downloader/tui/screens/login.py +74 -0
novel_downloader/tui/styles/home_layout.tcss +79 -0
novel_downloader/tui/widgets/richlog_handler.py +24 -0
novel_downloader/utils/__init__.py +6 -0
novel_downloader/utils/chapter_storage.py +25 -38
novel_downloader/utils/constants.py +15 -5
novel_downloader/utils/cookies.py +66 -0
novel_downloader/utils/crypto_utils.py +1 -74
novel_downloader/utils/file_utils/io.py +1 -1
novel_downloader/utils/fontocr/ocr_v1.py +2 -1
novel_downloader/utils/fontocr/ocr_v2.py +2 -2
novel_downloader/utils/hash_store.py +10 -18
novel_downloader/utils/hash_utils.py +3 -2
novel_downloader/utils/logger.py +2 -3
novel_downloader/utils/network.py +53 -39
novel_downloader/utils/text_utils/chapter_formatting.py +6 -1
novel_downloader/utils/text_utils/font_mapping.py +1 -1
novel_downloader/utils/text_utils/text_cleaning.py +1 -1
novel_downloader/utils/time_utils/datetime_utils.py +3 -3
novel_downloader/utils/time_utils/sleep_utils.py +3 -3
{novel_downloader-1.3.2.dist-info → novel_downloader-1.4.0.dist-info}/METADATA +72 -38
novel_downloader-1.4.0.dist-info/RECORD +170 -0
{novel_downloader-1.3.2.dist-info → novel_downloader-1.4.0.dist-info}/WHEEL +1 -1
{novel_downloader-1.3.2.dist-info → novel_downloader-1.4.0.dist-info}/entry_points.txt +1 -0
novel_downloader/cli/interactive.py +0 -66
novel_downloader/cli/settings.py +0 -177
novel_downloader/config/models.py +0 -187
novel_downloader/core/downloaders/base/__init__.py +0 -14
novel_downloader/core/downloaders/base/base_async.py +0 -153
novel_downloader/core/downloaders/base/base_sync.py +0 -208
novel_downloader/core/downloaders/biquge/__init__.py +0 -14
novel_downloader/core/downloaders/biquge/biquge_async.py +0 -27
novel_downloader/core/downloaders/biquge/biquge_sync.py +0 -27
novel_downloader/core/downloaders/common/__init__.py +0 -14
novel_downloader/core/downloaders/common/common_async.py +0 -218
novel_downloader/core/downloaders/common/common_sync.py +0 -210
novel_downloader/core/downloaders/esjzone/__init__.py +0 -14
novel_downloader/core/downloaders/esjzone/esjzone_async.py +0 -27
novel_downloader/core/downloaders/esjzone/esjzone_sync.py +0 -27
novel_downloader/core/downloaders/qianbi/__init__.py +0 -14
novel_downloader/core/downloaders/qianbi/qianbi_async.py +0 -27
novel_downloader/core/downloaders/qianbi/qianbi_sync.py +0 -27
novel_downloader/core/downloaders/qidian/__init__.py +0 -10
novel_downloader/core/downloaders/qidian/qidian_sync.py +0 -227
novel_downloader/core/downloaders/sfacg/__init__.py +0 -14
novel_downloader/core/downloaders/sfacg/sfacg_async.py +0 -27
novel_downloader/core/downloaders/sfacg/sfacg_sync.py +0 -27
novel_downloader/core/downloaders/yamibo/__init__.py +0 -14
novel_downloader/core/downloaders/yamibo/yamibo_async.py +0 -27
novel_downloader/core/downloaders/yamibo/yamibo_sync.py +0 -27
novel_downloader/core/factory/requester.py +0 -144
novel_downloader/core/factory/saver.py +0 -56
novel_downloader/core/interfaces/async_downloader.py +0 -36
novel_downloader/core/interfaces/async_requester.py +0 -84
novel_downloader/core/interfaces/sync_downloader.py +0 -36
novel_downloader/core/interfaces/sync_requester.py +0 -82
novel_downloader/core/parsers/qidian/browser/__init__.py +0 -12
novel_downloader/core/parsers/qidian/browser/chapter_normal.py +0 -93
novel_downloader/core/parsers/qidian/browser/chapter_router.py +0 -71
novel_downloader/core/parsers/qidian/session/__init__.py +0 -12
novel_downloader/core/parsers/qidian/session/chapter_encrypted.py +0 -443
novel_downloader/core/parsers/qidian/session/chapter_normal.py +0 -115
novel_downloader/core/parsers/qidian/session/main_parser.py +0 -128
novel_downloader/core/parsers/qidian/shared/__init__.py +0 -37
novel_downloader/core/parsers/qidian/shared/book_info_parser.py +0 -150
novel_downloader/core/requesters/base/async_session.py +0 -410
novel_downloader/core/requesters/base/browser.py +0 -337
novel_downloader/core/requesters/base/session.py +0 -378
novel_downloader/core/requesters/biquge/__init__.py +0 -14
novel_downloader/core/requesters/common/__init__.py +0 -17
novel_downloader/core/requesters/common/session.py +0 -113
novel_downloader/core/requesters/esjzone/__init__.py +0 -13
novel_downloader/core/requesters/esjzone/session.py +0 -235
novel_downloader/core/requesters/qianbi/__init__.py +0 -13
novel_downloader/core/requesters/qidian/__init__.py +0 -21
novel_downloader/core/requesters/qidian/broswer.py +0 -307
novel_downloader/core/requesters/qidian/session.py +0 -290
novel_downloader/core/requesters/sfacg/__init__.py +0 -13
novel_downloader/core/requesters/sfacg/session.py +0 -242
novel_downloader/core/requesters/yamibo/__init__.py +0 -13
novel_downloader/core/requesters/yamibo/session.py +0 -237
novel_downloader/core/savers/__init__.py +0 -34
novel_downloader/core/savers/biquge.py +0 -25
novel_downloader/core/savers/common/__init__.py +0 -12
novel_downloader/core/savers/epub_utils/__init__.py +0 -26
novel_downloader/core/savers/esjzone.py +0 -25
novel_downloader/core/savers/qianbi.py +0 -25
novel_downloader/core/savers/sfacg.py +0 -25
novel_downloader/core/savers/yamibo.py +0 -25
novel_downloader/resources/config/rules.toml +0 -196
novel_downloader-1.3.2.dist-info/RECORD +0 -165
{novel_downloader-1.3.2.dist-info → novel_downloader-1.4.0.dist-info}/licenses/LICENSE +0 -0
{novel_downloader-1.3.2.dist-info → novel_downloader-1.4.0.dist-info}/top_level.txt +0 -0

novel_downloader/core/parsers/qidian/{browser/chapter_encrypted.py → chapter_encrypted.py} RENAMED Viewed

@@ -1,16 +1,10 @@
 #!/usr/bin/env python3
 """
-novel_downloader.core.parsers.qidian.browser.chapter_encrypted
---------------------------------------------------------------
+novel_downloader.core.parsers.qidian.chapter_encrypted
+------------------------------------------------------
 Support for parsing encrypted chapters from Qidian using font OCR mapping,
 CSS rules, and custom rendering logic.
-Includes:
-- Font downloading and caching
-- Encrypted paragraph extraction
-- Custom CSS parsing and layout restoration
-- Font-based OCR decryption and mapping
 """
 from __future__ import annotations
@@ -21,27 +15,30 @@ from pathlib import Path
 from typing import TYPE_CHECKING, Any
 import tinycss2
-from bs4 import BeautifulSoup, Tag
+from lxml import html
-from novel_downloader.utils.chapter_storage import ChapterDict
+from novel_downloader.models import ChapterDict
 from novel_downloader.utils.network import download_font_file
 from novel_downloader.utils.text_utils import apply_font_mapping
-from ..shared import (
+from .utils import (
     extract_chapter_info,
     find_ssr_page_context,
+    get_decryptor,
+    vip_status,
 )
 if TYPE_CHECKING:
-    from .main_parser import QidianBrowserParser
+    from .main_parser import QidianParser
 logger = logging.getLogger(__name__)
 IGNORED_CLASS_LISTS = {"title", "review"}
+NON_CONTENT_KEYWORDS = {"旧版", "反馈", "扫码"}
 def parse_encrypted_chapter(
-    parser: QidianBrowserParser,
-    soup: BeautifulSoup,
+    parser: QidianParser,
+    html_str: str,
     chapter_id: str,
 ) -> ChapterDict | None:
     """
@@ -52,9 +49,8 @@ def parse_encrypted_chapter(
     3. Decode and save randomFont bytes; download fixedFont via download_font().
     4. Extract paragraph structures and save debug JSON.
     5. Parse CSS rules and save debug JSON.
-    6. Determine paragraph name prefixes and ending number; save debug text.
-    7. Render encrypted paragraphs, then run OCR font-mapping.
-    8. Extracts paragraph texts and formats them.
+    6. Render encrypted paragraphs, then run OCR font-mapping.
+    7. Extracts paragraph texts and formats them.
     :param html_str: Raw HTML content of the chapter page.
     :return: Formatted chapter text or empty string if not parsable.
@@ -62,13 +58,14 @@ def parse_encrypted_chapter(
     try:
         if not (parser._decode_font and parser._font_ocr):
             return None
-        ssr_data = find_ssr_page_context(soup)
+        ssr_data = find_ssr_page_context(html_str)
         chapter_info = extract_chapter_info(ssr_data)
         if not chapter_info:
             logger.warning(
                 "[Parser] ssr_chapterInfo not found for chapter '%s'", chapter_id
             )
             return None
         debug_base_dir: Path | None = None
         if parser._font_debug_dir:
             debug_base_dir = parser._font_debug_dir / chapter_id
@@ -79,7 +76,9 @@ def parse_encrypted_chapter(
         fixedFontWoff2_url = chapter_info["fixedFontWoff2"]
         title = chapter_info.get("chapterName", "Untitled")
-        chapter_id = chapter_info.get("chapterId", "")
+        raw_html = chapter_info.get("content", "")
+        chapter_id = chapter_info.get("chapterId", chapter_id)
+        fkp = chapter_info.get("fkp", "")
         author_say = chapter_info.get("authorSay", "")
         update_time = chapter_info.get("updateTime", "")
         update_timestamp = chapter_info.get("updateTimestamp", 0)
@@ -101,7 +100,26 @@ def parse_encrypted_chapter(
             raise ValueError("fixed_path is None: failed to download font")
         # Extract and render paragraphs from HTML with CSS rules
-        main_paragraphs = extract_paragraphs_recursively(soup, chapter_id)
+        main_paragraphs = extract_paragraphs_recursively(html_str, chapter_id)
+        if not main_paragraphs or contains_keywords(
+            main_paragraphs, NON_CONTENT_KEYWORDS
+        ):
+            if vip_status(ssr_data):
+                try:
+                    decryptor = get_decryptor()
+                    raw_html = decryptor.decrypt(
+                        raw_html,
+                        chapter_id,
+                        fkp,
+                        parser._fuid,
+                    )
+                except Exception as e:
+                    logger.error(
+                        "[Parser] decryption failed for '%s': %s", chapter_id, e
+                    )
+                    return None
+            main_paragraphs = extract_paragraphs_recursively(raw_html, chapter_id)
         if debug_base_dir:
             main_paragraphs_path = debug_base_dir / "main_paragraphs_debug.json"
             main_paragraphs_path.write_text(
@@ -117,23 +135,11 @@ def parse_encrypted_chapter(
                 encoding="utf-8",
             )
-        paragraph_names = parse_paragraph_names(paragraphs_rules)
-        end_number = parse_end_number(main_paragraphs, paragraph_names)
-        if debug_base_dir:
-            paragraphs_rules_path = debug_base_dir / "paragraph_names_debug.txt"
-            temp = f"names:\n{paragraph_names}\n\nend_number: {end_number}"
-            paragraphs_rules_path.write_text(
-                temp,
-                encoding="utf-8",
-            )
-        if not end_number:
-            logger.warning(
-                f"[Parser] No end_number found after parsing chapter '{chapter_id}'"
-            )
-            return None
+        end_number = parse_end_number(main_paragraphs, paragraphs_rules)
         paragraphs_str, refl_list = render_paragraphs(
-            main_paragraphs, paragraphs_rules, end_number
+            main_paragraphs,
+            paragraphs_rules,
+            end_number,
         )
         if debug_base_dir:
             paragraphs_str_path = debug_base_dir / f"{chapter_id}_debug.txt"
@@ -173,7 +179,7 @@ def parse_encrypted_chapter(
         )
         return {
             "id": str(chapter_id),
-            "title": title,
+            "title": str(title),
             "content": final_paragraphs_str,
             "extra": {
                 "author_say": author_say.strip() if author_say else "",
@@ -183,6 +189,7 @@ def parse_encrypted_chapter(
                 "word_count": word_count,
                 "seq": seq,
                 "volume": volume,
+                "encrypted": True,
             },
         }
@@ -194,48 +201,46 @@ def parse_encrypted_chapter(
 def extract_paragraphs_recursively(
-    soup: BeautifulSoup, chapter_id: str = ""
+    html_str: str,
+    chapter_id: str,
 ) -> list[dict[str, Any]]:
-    """
-    Extracts paragraph elements under <main id="c-{chapter_id}"> from HTML
-    and converts them to a nested data structure for further processing.
+    def parse_element(elem: html.HtmlElement) -> dict[str, Any]:
+        class_attr = elem.attrib.get("class", "")
+        class_list = class_attr.split() if isinstance(class_attr, str) else class_attr
+        if "review" in class_list:
+            return {}
+        # Build attrs with class as list
+        attrs = {k: v.split() if k == "class" else v for k, v in elem.attrib.items()}
+        node: dict[str, Any] = {
+            "tag": elem.tag,
+            "attrs": attrs,
+            "data": [],
+        }
-    :param html_str: Full HTML content.
-    :param chapter_id: ID used to locate <main id="c-{chapter_id}">.
+        # Append entire elem.text if present (no splitting)
+        if elem.text:
+            node["data"].append(elem.text)
-    :return list: List of parsed <p> paragraph data.
-    """
+        # Recurse into children
+        for child in elem.iterchildren(tag=None):
+            child_dict = parse_element(child)
+            if child_dict:
+                node["data"].append(child_dict)
-    def parse_element(elem: Any) -> dict[str, Any] | None:
-        if not isinstance(elem, Tag):
-            return None
-        result = {"tag": elem.name, "attrs": dict(elem.attrs), "data": []}
-        for child in elem.contents:
-            if isinstance(child, Tag):
-                parsed = parse_element(child)
-                if parsed:
-                    result["data"].append(parsed)
-            else:
-                text = child
-                if text:
-                    result["data"].append(text)
-        return result
-    if chapter_id:
-        main_id = f"c-{chapter_id}"
-        main_tag = soup.find("main", id=main_id)
-        if not isinstance(main_tag, Tag):
-            return []
-    else:
-        main_tag = soup
-    result = []
-    for p in main_tag.find_all("p"):
-        parsed_p = parse_element(p)
-        if parsed_p:
-            result.append(parsed_p)
-    return result
+            # Append entire tail string (no split)
+            if child.tail:
+                node["data"].append(child.tail)
+        return node
+    tree = html.fromstring(html_str)
+    # Try to find <main id="c-{chapter_id}">
+    main_elem = tree.xpath(f'//main[@id="c-{chapter_id}"]')
+    search_root = main_elem[0] if main_elem else tree
+    return [parse_element(p) for p in search_root.findall(".//p")]
 def parse_rule(css_str: str) -> dict[str, Any]:
@@ -317,68 +322,10 @@ def parse_rule(css_str: str) -> dict[str, Any]:
     return {"rules": rules, "orders": orders}
-def parse_paragraph_names(rules: dict[str, Any]) -> set[str]:
-    """
-    Extract all paragraph selector names from parsed rules, excluding "sy".
-    """
-    paragraph_names = set()
-    for group, group_rules in rules.get("rules", {}).items():
-        if group == "sy":
-            continue
-        paragraph_names.update(group_rules.keys())
-    return paragraph_names
-def parse_end_number(
-    main_paragraphs: list[dict[str, Any]], paragraph_names: set[str]
-) -> int | None:
-    """
-    Find the most frequent numeric suffix from tag names
-    matched by given paragraph prefixes.
-    """
-    end_numbers: dict[int, int] = {}
-    sorted_names = sorted(paragraph_names, key=len, reverse=True)
-    def rec_parse(item: list[Any] | dict[str, Any]) -> None:
-        if isinstance(item, list):
-            for element in item:
-                rec_parse(element)
-        elif isinstance(item, dict):
-            tag = item.get("tag")
-            if isinstance(tag, str):
-                for prefix in sorted_names:
-                    if tag.startswith(prefix):
-                        remain = tag[len(prefix) :]
-                        if remain.isdigit():
-                            num = int(remain)
-                            end_numbers[num] = end_numbers.get(num, 0) + 1
-                        break
-            for val in item.values():
-                if isinstance(val, (list | dict)):
-                    rec_parse(val)
-    rec_parse(main_paragraphs)
-    if not end_numbers:
-        logger.warning("[Parser] No valid ending numbers found")
-        return None
-    sorted_numbers = sorted(
-        end_numbers.items(), key=lambda x: (x[1], x[0]), reverse=True
-    )
-    logger.debug(
-        "[Parser] Top 3 end numbers:\n%s",
-        "\n".join(f"{n}: {c}" for n, c in sorted_numbers[:3]),
-    )
-    return sorted_numbers[0][0]
 def render_paragraphs(
     main_paragraphs: list[dict[str, Any]],
     rules: dict[str, Any],
-    end_number: int,
+    end_number: str = "",
 ) -> tuple[str, list[str]]:
     """
     Applies the parsed CSS rules to the paragraph structure and
@@ -392,7 +339,6 @@ def render_paragraphs(
     :param rules: A dictionary with keys 'orders' and 'rules', parsed from CSS.
                   - rules['orders']: List of (selector, id) tuples.
                   - rules['rules']: Nested dict containing transformation rules.
-    :param end_number: HTML tag suffix (e.g. span123 -> 123).
     :return:
         - A reconstructed paragraph string with line breaks.
@@ -488,3 +434,84 @@ def render_paragraphs(
         paragraphs_str += "\n\n"
     return paragraphs_str, refl_list
+def parse_paragraph_names(rules: dict[str, Any]) -> set[str]:
+    """
+    Extract all paragraph selector names from parsed rules, excluding "sy".
+    """
+    paragraph_names = set()
+    for group, group_rules in rules.get("rules", {}).items():
+        if group == "sy":
+            continue
+        paragraph_names.update(group_rules.keys())
+    return paragraph_names
+def parse_end_number(
+    main_paragraphs: list[dict[str, Any]],
+    rules: dict[str, Any],
+) -> str:
+    """
+    Find the most frequent numeric suffix from tag names
+    matched by given paragraph prefixes.
+    """
+    paragraph_names = parse_paragraph_names(rules)
+    end_numbers: dict[int, int] = {}
+    prefix_hits = 0
+    sorted_names = sorted(paragraph_names, key=len, reverse=True)
+    def rec_parse(item: list[Any] | dict[str, Any]) -> None:
+        nonlocal prefix_hits
+        if isinstance(item, list):
+            for element in item:
+                rec_parse(element)
+        elif isinstance(item, dict):
+            tag = item.get("tag")
+            if isinstance(tag, str):
+                for prefix in sorted_names:
+                    if tag.startswith(prefix):
+                        prefix_hits += 1
+                        remain = tag[len(prefix) :]
+                        if remain.isdigit():
+                            num = int(remain)
+                            end_numbers[num] = end_numbers.get(num, 0) + 1
+                        break
+            for val in item.values():
+                if isinstance(val, (list | dict)):
+                    rec_parse(val)
+    rec_parse(main_paragraphs)
+    if not end_numbers:
+        logger.debug("[Parser] No valid ending numbers found")
+        return ""
+    sorted_numbers = sorted(
+        end_numbers.items(), key=lambda x: (x[1], x[0]), reverse=True
+    )
+    logger.debug(
+        "[Parser] Top 3 end numbers:\n%s",
+        "\n".join(f"{n}: {c}" for n, c in sorted_numbers[:3]),
+    )
+    most_common_number, most_common_count = sorted_numbers[0]
+    if most_common_count <= prefix_hits / 2:
+        logger.debug(
+            "[Parser] Top number (%s) does not exceed 50%% threshold: %d of %d",
+            most_common_number,
+            most_common_count,
+            prefix_hits,
+        )
+        return ""
+    return str(most_common_number)
+def contains_keywords(paragraphs: list[dict[str, Any]], keywords: set[str]) -> bool:
+    for para in paragraphs:
+        data = para.get("data", [])
+        for item in data:
+            if isinstance(item, str) and any(kw in item for kw in keywords):
+                return True
+    return False

novel_downloader/core/parsers/qidian/chapter_normal.py ADDED Viewed

@@ -0,0 +1,150 @@
+#!/usr/bin/env python3
+"""
+novel_downloader.core.parsers.qidian.chapter_normal
+---------------------------------------------------
+Parser logic for extracting readable text from Qidian chapters
+that use plain (non-encrypted) browser-rendered HTML.
+"""
+from __future__ import annotations
+import logging
+from typing import TYPE_CHECKING
+from lxml import html
+from novel_downloader.models import ChapterDict
+from .utils import (
+    extract_chapter_info,
+    find_ssr_page_context,
+    get_decryptor,
+    vip_status,
+)
+if TYPE_CHECKING:
+    from .main_parser import QidianParser
+logger = logging.getLogger(__name__)
+def parse_normal_chapter(
+    parser: QidianParser,
+    html_str: str,
+    chapter_id: str,
+) -> ChapterDict | None:
+    """
+    Extract structured chapter info from a normal Qidian page.
+    :param html_str: Chapter HTML.
+    :param chapter_id: Chapter identifier (string).
+    :return: a dictionary with keys like 'id', 'title', 'content', etc.
+    """
+    try:
+        ssr_data = find_ssr_page_context(html_str)
+        chapter_info = extract_chapter_info(ssr_data)
+        if not chapter_info:
+            logger.warning(
+                "[Parser] ssr_chapterInfo not found for chapter '%s'", chapter_id
+            )
+            return None
+        title = chapter_info.get("chapterName", "Untitled")
+        raw_html = chapter_info.get("content", "")
+        chapter_id = chapter_info.get("chapterId", chapter_id)
+        fkp = chapter_info.get("fkp", "")
+        author_say = chapter_info.get("authorSay", "")
+        update_time = chapter_info.get("updateTime", "")
+        update_timestamp = chapter_info.get("updateTimestamp", 0)
+        modify_time = chapter_info.get("modifyTime", 0)
+        word_count = chapter_info.get("wordsCount", 0)
+        seq = chapter_info.get("seq", None)
+        volume = chapter_info.get("extra", {}).get("volumeName", "")
+        chapter_text = _parse_browser_paragraph(html_str)
+        if not chapter_text:
+            chapter_text = _parse_session_paragraph(
+                html_str=raw_html,
+                is_vip=vip_status(ssr_data),
+                chapter_id=chapter_id,
+                fkp=fkp,
+                fuid=parser._fuid,
+            )
+            if not chapter_text:
+                return None
+        return {
+            "id": str(chapter_id),
+            "title": title,
+            "content": chapter_text,
+            "extra": {
+                "author_say": author_say.strip() if author_say else "",
+                "updated_at": update_time,
+                "update_timestamp": update_timestamp,
+                "modify_time": modify_time,
+                "word_count": word_count,
+                "seq": seq,
+                "volume": volume,
+                "encrypted": False,
+            },
+        }
+    except Exception as e:
+        logger.warning(
+            "[Parser] parse error for normal chapter '%s': %s", chapter_id, e
+        )
+    return None
+def _parse_browser_paragraph(html_str: str) -> str:
+    try:
+        tree = html.fromstring(html_str)
+        main = tree.xpath('//div[@id="app"]//div[@id="reader-content"]//main')
+        if not main:
+            return ""
+        main = main[0]
+        content_spans = main.xpath('.//span[contains(@class, "content-text")]')
+        paragraph_texts = [
+            span.text_content().strip()
+            for span in content_spans
+            if span.text_content().strip()
+        ]
+        chapter_text = "\n\n".join(paragraph_texts)
+        return chapter_text
+    except Exception as e:
+        logger.error("[Parser] _parse_paragraph failed: %s", e)
+    return ""
+def _parse_session_paragraph(
+    html_str: str,
+    is_vip: bool,
+    chapter_id: str,
+    fkp: str,
+    fuid: str,
+) -> str:
+    try:
+        raw_html = html_str
+        if is_vip:
+            try:
+                decryptor = get_decryptor()
+                raw_html = decryptor.decrypt(raw_html, chapter_id, fkp, fuid)
+            except Exception as e:
+                logger.error("[Parser] decryption failed for '%s': %s", chapter_id, e)
+                return ""
+        tree = html.fromstring(raw_html)
+        paras = tree.xpath(".//p")
+        paragraph_texts = [
+            p.text_content().strip() for p in paras if p.text_content().strip()
+        ]
+        return "\n\n".join(paragraph_texts)
+    except Exception as e:
+        logger.error("[Parser] _parse_paragraph failed: %s", e)
+    return ""

novel_downloader/core/parsers/qidian/{session/chapter_router.py → chapter_router.py} RENAMED Viewed

@@ -1,9 +1,9 @@
 #!/usr/bin/env python3
 """
-novel_downloader.core.parsers.qidian.session.chapter_router
------------------------------------------------------------
+novel_downloader.core.parsers.qidian.chapter_router
+---------------------------------------------------
-Routing logic for selecting the correct chapter parser for Qidian session pages.
+Routing logic for selecting the correct chapter parser for Qidian pages.
 """
 from __future__ import annotations
@@ -11,50 +11,50 @@ from __future__ import annotations
 import logging
 from typing import TYPE_CHECKING
-from novel_downloader.utils.chapter_storage import ChapterDict
+from novel_downloader.models import ChapterDict
-from ..shared import (
+from .chapter_normal import parse_normal_chapter
+from .utils import (
     can_view_chapter,
-    html_to_soup,
+    find_ssr_page_context,
     is_encrypted,
 )
-from .chapter_normal import parse_normal_chapter
 if TYPE_CHECKING:
-    from .main_parser import QidianSessionParser
+    from .main_parser import QidianParser
 logger = logging.getLogger(__name__)
 def parse_chapter(
-    parser: QidianSessionParser,
+    parser: QidianParser,
     html_str: str,
     chapter_id: str,
 ) -> ChapterDict | None:
     """
     Extract and return the formatted textual content of chapter.
-    :param parser: Instance of QidianSessionParser.
+    :param parser: Instance of QidianParser.
     :param html_str: Raw HTML content of the chapter page.
     :param chapter_id: Identifier of the chapter being parsed.
     :return: Formatted chapter text or empty string if not parsable.
     """
     try:
-        soup = html_to_soup(html_str)
+        ssr_data = find_ssr_page_context(html_str)
-        if not can_view_chapter(soup):
+        if not can_view_chapter(ssr_data):
             logger.warning(
                 "[Parser] Chapter '%s' is not purchased or inaccessible.", chapter_id
             )
             return None
-        if is_encrypted(soup):
+        if is_encrypted(ssr_data):
             if not parser._decode_font:
                 return None
             try:
                 from .chapter_encrypted import parse_encrypted_chapter
-                return parse_encrypted_chapter(parser, soup, chapter_id, parser._fuid)
+                return parse_encrypted_chapter(parser, html_str, chapter_id)
             except ImportError:
                 logger.warning(
                     "[Parser] Encrypted chapter '%s' requires extra dependencies.",
@@ -62,7 +62,7 @@ def parse_chapter(
                 )
                 return None
-        return parse_normal_chapter(soup, chapter_id, parser._fuid)
+        return parse_normal_chapter(parser, html_str, chapter_id)
     except Exception as e:
         logger.warning("[Parser] parse error for chapter '%s': %s", chapter_id, e)
     return None

novel-downloader 1.3.2__py3-none-any.whl → 1.4.0__py3-none-any.whl

novel-downloader 1.3.2py3-none-any.whl → 1.4.0py3-none-any.whl