PyPI - docs2epub - Versions diffs - 0.1.6__py3-none-any.whl → 0.1.8__py3-none-any.whl - Mend

docs2epub 0.1.6py3-none-any.whl → 0.1.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

docs2epub/docusaurus_next.py CHANGED Viewed

@@ -85,9 +85,46 @@ def _extract_article(soup: BeautifulSoup) -> Tag:
   role_main = soup.find(attrs={"role": "main"})
   if role_main:
     return role_main
+  for selector in [
+    "div#content",
+    "div.content",
+    "div#main",
+    "div.main",
+    "div#page",
+    "div.page",
+    "div.document",
+    "div#document",
+  ]:
+    candidate = soup.select_one(selector)
+    if candidate:
+      return candidate
+  body = soup.find("body")
+  if body:
+    return body
   raise RuntimeError("Could not find <article> in page HTML")
+def _extract_canonical_url(soup: BeautifulSoup, *, base_url: str) -> str | None:
+  for link in soup.find_all("link", href=True, rel=True):
+    rel = link.get("rel")
+    rel_values = []
+    if isinstance(rel, list):
+      rel_values = [str(r).lower() for r in rel]
+    else:
+      rel_values = [str(rel).lower()]
+    if "canonical" not in rel_values:
+      continue
+    href = str(link.get("href") or "").strip()
+    if not href:
+      continue
+    canonical = urljoin(base_url, href)
+    parsed = urlparse(canonical)
+    if parsed.scheme not in ("http", "https"):
+      continue
+    return canonical
+  return None
 def _canonicalize_url(url: str) -> str:
   parsed = urlparse(url)
   path = parsed.path or "/"
@@ -321,6 +358,17 @@ def iter_docusaurus_next(options: DocusaurusNextOptions) -> list[Chapter]:
     return BeautifulSoup(resp.text, "lxml")
   initial_soup = fetch_soup(url)
+  canonical = _extract_canonical_url(initial_soup, base_url=url)
+  if options.base_url is None and canonical:
+    start_origin = urlparse(url).netloc.lower()
+    canonical_origin = urlparse(canonical).netloc.lower()
+    if canonical_origin == start_origin:
+      canonical_key = _canonicalize_url(canonical)
+      if canonical_key != _canonicalize_url(url):
+        url = canonical
+        base_url = canonical
+        initial_soup = fetch_soup(url)
   sidebar_urls = _extract_sidebar_urls(initial_soup, base_url=base_url, start_url=url)
   initial_key = _canonicalize_url(url)
@@ -342,13 +390,22 @@ def iter_docusaurus_next(options: DocusaurusNextOptions) -> list[Chapter]:
           return None
         raise
-    article = _extract_article(page_soup)
+    try:
+      article = _extract_article(page_soup)
+    except RuntimeError:
+      if key != initial_key:
+        return None
+      raise
     title_el = article.find(["h1", "h2"])
     title = (
       " ".join(title_el.get_text(" ", strip=True).split())
       if title_el
       else f"Chapter {len(chapters) + 1}"
     )
+    if title_el is None and article.name == "body":
+      body_text = " ".join(article.get_text(" ", strip=True).split())
+      if len(body_text) < 200:
+        return None
     _remove_unwanted(article)
     _absolutize_urls(article, base_url=target_url)

{docs2epub-0.1.6.dist-info → docs2epub-0.1.8.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: docs2epub
-Version: 0.1.6
+Version: 0.1.8
 Summary: Turn documentation sites into an EPUB (Kindle-friendly).
 Author: Breno Brito
 License: MIT

{docs2epub-0.1.6.dist-info → docs2epub-0.1.8.dist-info}/RECORD RENAMED Viewed

@@ -1,11 +1,11 @@
 docs2epub/__init__.py,sha256=iccyEu4zlubhvd6pM7Z2Gjwn8tPw9IhZ4ABKhbiFjUY,54
 docs2epub/cli.py,sha256=pt1crvrkr2k1ybf_p0m4xSYyoZVluFsDNGuwJ7CykYM,3863
-docs2epub/docusaurus_next.py,sha256=c4EZMo7E6zeuekbA3n_rF1joT3Km1cPY1HTimzUkMFg,10866
+docs2epub/docusaurus_next.py,sha256=nQYkNecXgh4TsxaTydoiC1tVmIqjYiLiyEtYlpXGmXg,12507
 docs2epub/epub.py,sha256=OsPWcPGTgazAeNpWASIE6e4HQ5ILQr2VFO1-Aj3y1kg,2986
 docs2epub/kindle_html.py,sha256=LN0CGj9ap9b8iC_MlZcQLuhJ7FehZr_VbIfMOz78E5c,2297
 docs2epub/model.py,sha256=uL7uwbG6yU0bEGpSFxxIv2pcZHQR9cs2prfqk5iNQwc,160
 docs2epub/pandoc_epub2.py,sha256=l22-QAQcCgJyl7HF0_b5weC3qEGVQLwOhxdbAvd8C2o,3610
-docs2epub-0.1.6.dist-info/METADATA,sha256=Qu_OyYWfevaG_y7rCpUR81AT8aYK9Yo9KS4Cz_ZgDg8,1886
-docs2epub-0.1.6.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
-docs2epub-0.1.6.dist-info/entry_points.txt,sha256=DHK4mzthrIXUvM8Y8Vo_3jG2IhegEDDM7T9CvCkUtvw,49
-docs2epub-0.1.6.dist-info/RECORD,,
+docs2epub-0.1.8.dist-info/METADATA,sha256=KdwbHGiBRLuXLQKlTypnDH8eOogD5bDoSGDIJgNriZs,1886
+docs2epub-0.1.8.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
+docs2epub-0.1.8.dist-info/entry_points.txt,sha256=DHK4mzthrIXUvM8Y8Vo_3jG2IhegEDDM7T9CvCkUtvw,49
+docs2epub-0.1.8.dist-info/RECORD,,

{docs2epub-0.1.6.dist-info → docs2epub-0.1.8.dist-info}/WHEEL RENAMED Viewed

File without changes

{docs2epub-0.1.6.dist-info → docs2epub-0.1.8.dist-info}/entry_points.txt RENAMED Viewed

File without changes

docs2epub 0.1.6__py3-none-any.whl → 0.1.8__py3-none-any.whl

docs2epub 0.1.6py3-none-any.whl → 0.1.8py3-none-any.whl