PyPI - tocsmith - Versions diffs - 0.1.0__tar.gz → 0.2.0__tar.gz - Mend

tocsmith 0.1.0tar.gz → 0.2.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (16) hide show

{tocsmith-0.1.0 → tocsmith-0.2.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: tocsmith
-Version: 0.1.0
+Version: 0.2.0
 Summary: Create PDF bookmarks automatically using heuristics, with CLI and async tkinter GUI
 Author-email: Wesley Yang <yxnian@outlook.com>
 Project-URL: Homepage, https://github.com/wesleyel/pdf-bookmark
@@ -25,8 +25,12 @@ Requires-Dist: mypy>=1.10.0; extra == "dev"
 ## 功能概览
 - 手动粘贴目录文本（每行以书中页码结尾），自动解析标题、页码与层级（1..6）
+- 支持两种层级解析方式：
+  - **按序号**：`1 标题 1` / `1.1 子标题 2` / `1.1.1 子子标题 3`，可通过 `keep_numbering` 控制序号是否写入书签标题
+  - **按缩进**：通过行首空格/Tab 缩进表示层级，标题不含序号
+  - 默认 `auto` 自动识别；也可通过 `--toc-mode` 或配置 `toc_mode` 显式指定
 - 支持页码偏移（实际页码 - 书籍页码），用于扫描件/前置页差异
-- 编号前缀会被保留到标题中：如 `第1章`、`1.1` 将出现在最终书签标题里
+- 按序号模式下，默认保留编号前缀到标题中（如 `第1章`、`1.1`）；设置 `keep_numbering = false` 或 `--no-keep-numbering` 可仅用于推断层级
 - 支持行首星号标记：允许输入 `*1.1 Title` 或 `* 1.1 Title`，输出统一为 `*1.1 Title`
 - 将条目以父子层级写入 PDF 书签
 - 提供 CLI 与 GUI；亦可通过 Python API 使用
@@ -82,6 +86,10 @@ tocsmith --help
 page_offset = 0
 # global minimum length
 min_len = 3
+# TOC hierarchy mode: auto | numbering | indent
+toc_mode = "auto"
+# keep numbering prefix in bookmark titles (numbering mode only)
+keep_numbering = true
 # input folder
 input_prefix = "input"
@@ -100,6 +108,26 @@ toc = """
 """
 page_offset = 10
 min_len = 2
+toc_mode = "numbering"
+keep_numbering = false
+```
+### 目录文本格式
+**按序号**（`toc_mode = "numbering"` 或自动识别）：
+```
+1  我是标题  1
+1.1  我是子标题  2
+1.1.1  我是子子标题  3
+```
+**按缩进**（`toc_mode = "indent"` 或自动识别）：
+```
+我是标题  1
+    我是子标题  2
+        我是子子标题  3
 ```
 运行：
@@ -109,7 +137,7 @@ tocsmith --config config.toml
 ```
 说明：
-- `defaults` 中的 `page_offset`、`min_len` 可被每个任务覆盖。
+- `defaults` 中的 `page_offset`、`min_len`、`toc_mode`、`keep_numbering` 可被每个任务覆盖。
 - `input_prefix` 用于解析任务中的 `input_file`；`output_prefix` 为输出目录根。
 - 输出文件名为 `{stem}{output_suffix}`，其中 `stem` 来源于 `input_file`。
 - 任务可直接内联 `toc` 文本；也兼容 `toc_file` 指定外部文件。
@@ -125,6 +153,8 @@ uv run python -m tocsmith.gui
 - 选择输入 PDF
 - 可选：修改输出路径
 - 在 “TOC text” 中粘贴目录文本；在 “Page Offset” 填写偏移（实际 - 书籍）
+- 选择 “TOC Mode”：`auto`（自动识别）、`numbering`（按序号）、`indent`（按缩进）
+- 勾选 “Keep numbering” 控制按序号模式下是否保留标题中的序号（默认保留）
 - 点击 “Parse TOC Text” 查看解析结果
 - 点击 “Generate” 生成带书签的 PDF

{tocsmith-0.1.0 → tocsmith-0.2.0}/README.md RENAMED Viewed

@@ -8,8 +8,12 @@
 ## 功能概览
 - 手动粘贴目录文本（每行以书中页码结尾），自动解析标题、页码与层级（1..6）
+- 支持两种层级解析方式：
+  - **按序号**：`1 标题 1` / `1.1 子标题 2` / `1.1.1 子子标题 3`，可通过 `keep_numbering` 控制序号是否写入书签标题
+  - **按缩进**：通过行首空格/Tab 缩进表示层级，标题不含序号
+  - 默认 `auto` 自动识别；也可通过 `--toc-mode` 或配置 `toc_mode` 显式指定
 - 支持页码偏移（实际页码 - 书籍页码），用于扫描件/前置页差异
-- 编号前缀会被保留到标题中：如 `第1章`、`1.1` 将出现在最终书签标题里
+- 按序号模式下，默认保留编号前缀到标题中（如 `第1章`、`1.1`）；设置 `keep_numbering = false` 或 `--no-keep-numbering` 可仅用于推断层级
 - 支持行首星号标记：允许输入 `*1.1 Title` 或 `* 1.1 Title`，输出统一为 `*1.1 Title`
 - 将条目以父子层级写入 PDF 书签
 - 提供 CLI 与 GUI；亦可通过 Python API 使用
@@ -65,6 +69,10 @@ tocsmith --help
 page_offset = 0
 # global minimum length
 min_len = 3
+# TOC hierarchy mode: auto | numbering | indent
+toc_mode = "auto"
+# keep numbering prefix in bookmark titles (numbering mode only)
+keep_numbering = true
 # input folder
 input_prefix = "input"
@@ -83,6 +91,26 @@ toc = """
 """
 page_offset = 10
 min_len = 2
+toc_mode = "numbering"
+keep_numbering = false
+```
+### 目录文本格式
+**按序号**（`toc_mode = "numbering"` 或自动识别）：
+```
+1  我是标题  1
+1.1  我是子标题  2
+1.1.1  我是子子标题  3
+```
+**按缩进**（`toc_mode = "indent"` 或自动识别）：
+```
+我是标题  1
+    我是子标题  2
+        我是子子标题  3
 ```
 运行：
@@ -92,7 +120,7 @@ tocsmith --config config.toml
 ```
 说明：
-- `defaults` 中的 `page_offset`、`min_len` 可被每个任务覆盖。
+- `defaults` 中的 `page_offset`、`min_len`、`toc_mode`、`keep_numbering` 可被每个任务覆盖。
 - `input_prefix` 用于解析任务中的 `input_file`；`output_prefix` 为输出目录根。
 - 输出文件名为 `{stem}{output_suffix}`，其中 `stem` 来源于 `input_file`。
 - 任务可直接内联 `toc` 文本；也兼容 `toc_file` 指定外部文件。
@@ -108,6 +136,8 @@ uv run python -m tocsmith.gui
 - 选择输入 PDF
 - 可选：修改输出路径
 - 在 “TOC text” 中粘贴目录文本；在 “Page Offset” 填写偏移（实际 - 书籍）
+- 选择 “TOC Mode”：`auto`（自动识别）、`numbering`（按序号）、`indent`（按缩进）
+- 勾选 “Keep numbering” 控制按序号模式下是否保留标题中的序号（默认保留）
 - 点击 “Parse TOC Text” 查看解析结果
 - 点击 “Generate” 生成带书签的 PDF

{tocsmith-0.1.0 → tocsmith-0.2.0}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "tocsmith"
-version = "0.1.0"
+version = "0.2.0"
 description = "Create PDF bookmarks automatically using heuristics, with CLI and async tkinter GUI"
 authors = [{ name = "Wesley Yang", email = "yxnian@outlook.com" }]
 urls = { Homepage = "https://github.com/wesleyel/pdf-bookmark", Source = "https://github.com/wesleyel/pdf-bookmark" }

{tocsmith-0.1.0 → tocsmith-0.2.0}/tocsmith/cli.py RENAMED Viewed

@@ -5,7 +5,7 @@ from pathlib import Path
 from typing import Any, Dict, List, Optional
 import sys
-from .core import generate_bookmarks, parse_toc_lines
+from .core import TocMode, generate_bookmarks, parse_toc_lines
 try:  # Python 3.11+
     import tomllib  # type: ignore[attr-defined]
@@ -23,6 +23,18 @@ def parse_args(argv: List[str] | None = None) -> argparse.Namespace:
     p.add_argument("--min-len", type=int, default=3, help="Minimum heading text length")
     p.add_argument("--page-offset", type=int, default=0, help="Page offset: actual - book page")
     p.add_argument("--toc-file", help="Path to a text file containing TOC lines")
+    p.add_argument(
+        "--toc-mode",
+        choices=["auto", "numbering", "indent"],
+        default="auto",
+        help="TOC hierarchy mode: numbering (1/1.1), indent (spaces), or auto-detect",
+    )
+    p.add_argument(
+        "--keep-numbering",
+        action=argparse.BooleanOptionalAction,
+        default=True,
+        help="Keep numbering prefix in bookmark titles (numbering mode only)",
+    )
     p.add_argument(
         "-c",
         "--config",
@@ -46,6 +58,8 @@ def _run_single(
     page_offset: int,
     min_len: int,
     toc_text: Optional[str] = None,
+    toc_mode: TocMode = "auto",
+    keep_numbering: bool = True,
 ) -> int:
     """Run a single task and return process exit code."""
     if not src.exists():
@@ -55,10 +69,22 @@ def _run_single(
     headings = []
     if toc_text is not None and toc_text.strip():
-        headings = parse_toc_lines(toc_text, page_offset=page_offset, min_len=min_len)
+        headings = parse_toc_lines(
+            toc_text,
+            page_offset=page_offset,
+            min_len=min_len,
+            mode=toc_mode,
+            keep_numbering=keep_numbering,
+        )
     elif toc_file:
         file_text = Path(toc_file).read_text(encoding="utf-8")
-        headings = parse_toc_lines(file_text, page_offset=page_offset, min_len=min_len)
+        headings = parse_toc_lines(
+            file_text,
+            page_offset=page_offset,
+            min_len=min_len,
+            mode=toc_mode,
+            keep_numbering=keep_numbering,
+        )
     else:
         print("No TOC source provided (use --toc-file). Producing a copy without outline.")
         headings = []
@@ -86,6 +112,8 @@ def _run_batch(config_path: Path) -> int:
     # Alternatively: toc_file = "toc.txt"
     page_offset = 10                     # optional overrides default
     min_len = 2                          # optional overrides default
+    toc_mode = "auto"                    # optional: auto | numbering | indent
+    keep_numbering = true                # optional: keep numbering in bookmark titles
     '''
     if tomllib is None:
         print("Error: TOML support not available. Please install 'tomli' for Python < 3.11.")
@@ -107,6 +135,11 @@ def _run_batch(config_path: Path) -> int:
     default_page_offset = int(defaults.get("page_offset", 0) or 0)
     default_min_len = int(defaults.get("min_len", 3) or 3)
+    default_toc_mode = str(defaults.get("toc_mode", "auto") or "auto").strip() or "auto"
+    if default_toc_mode not in ("auto", "numbering", "indent"):
+        print(f"Invalid defaults.toc_mode: {default_toc_mode!r}")
+        return 2
+    default_keep_numbering = bool(defaults.get("keep_numbering", True))
     input_prefix = str(defaults.get("input_prefix", "")).strip() or ""
     output_prefix = str(defaults.get("output_prefix", "")).strip() or ""
     output_suffix = (
@@ -139,11 +172,18 @@ def _run_batch(config_path: Path) -> int:
         toc_file = _resolve_relative(base_dir, t.get("toc_file"))
         page_offset = int(t.get("page_offset", default_page_offset) or default_page_offset)
         min_len = int(t.get("min_len", default_min_len) or default_min_len)
+        toc_mode = str(t.get("toc_mode", default_toc_mode) or default_toc_mode).strip() or "auto"
+        if toc_mode not in ("auto", "numbering", "indent"):
+            print(f"[Task {idx}] Skipped: invalid toc_mode {toc_mode!r}")
+            failures += 1
+            continue
+        keep_numbering = bool(t.get("keep_numbering", default_keep_numbering))
         print(
             f"[Task {idx}] Running: src={src} out={out} "
             f"toc={'inline' if (toc_inline and toc_inline.strip()) else (toc_file or '<none>')} "
-            f"offset={page_offset} min_len={min_len}"
+            f"offset={page_offset} min_len={min_len} toc_mode={toc_mode} "
+            f"keep_numbering={keep_numbering}"
         )
         try:
             # Ensure output directory exists
@@ -155,6 +195,8 @@ def _run_batch(config_path: Path) -> int:
                 page_offset=page_offset,
                 min_len=min_len,
                 toc_text=toc_inline,
+                toc_mode=toc_mode,  # type: ignore[arg-type]
+                keep_numbering=keep_numbering,
             )
             if code != 0:
                 failures += 1
@@ -186,6 +228,8 @@ def main(argv: List[str] | None = None) -> int:
         toc_file=Path(ns.toc_file) if ns.toc_file else None,
         page_offset=ns.page_offset,
         min_len=ns.min_len,
+        toc_mode=ns.toc_mode,
+        keep_numbering=ns.keep_numbering,
     )

tocsmith-0.2.0/tocsmith/core.py ADDED Viewed

@@ -0,0 +1,223 @@
+from __future__ import annotations
+from dataclasses import dataclass
+import re
+from functools import reduce
+from math import gcd
+from typing import Iterable, List, Literal, Tuple, Optional
+TocMode = Literal["numbering", "indent", "auto"]
+from pypdf import PdfReader, PdfWriter
+@dataclass
+class Heading:
+    title: str
+    page: int  # 1-based
+    level: int  # 1..6
+def generate_bookmarks(src_pdf: str, out_pdf: str, headings: Iterable[Heading]) -> None:
+    """Write given headings into a new PDF file as outline/bookmarks."""
+    reader = PdfReader(src_pdf)
+    writer = PdfWriter()
+    for page in reader.pages:
+        writer.add_page(page)
+    # Build hierarchical outlines using a simple stack by levels
+    stack: List[Tuple[int, object]] = []  # (level, parent_ref)
+    for h in headings:
+        page_index = max(0, min(len(reader.pages) - 1, h.page - 1))
+        while stack and stack[-1][0] >= h.level:
+            stack.pop()
+        parent = stack[-1][1] if stack else None
+        dest = writer.add_outline_item(h.title, page_index, parent=parent)
+        stack.append((h.level, dest))
+    with open(out_pdf, "wb") as f:
+        writer.write(f)
+# -------------------- TOC parsing utilities --------------------
+_NUM_PREFIX_RE = re.compile(
+    r"^\s*(?P<num>(第\s*\d+[一二三四五六七八九十百千]*[章节节部分编]?)|((\d+\.)+\d+)|\d+)?\s*"
+)
+_TRAILING_PAGE_RE = re.compile(r"(?P<page>\d{1,5})\s*$")
+def _infer_level_from_numbering(num: Optional[str]) -> int:
+    if not num:
+        return 1
+    num = num.strip()
+    if num.startswith("第"):
+        # "第1章" style => top-level
+        return 1
+    if "." in num:
+        # "1.2.3" => level = segments + 1 (so 1.2 is level 2)
+        return min(6, max(1, num.count(".") + 1))
+    # Simple leading integer like "1" => level 1
+    return 1
+def _leading_indent_width(raw_line: str) -> int:
+    width = 0
+    for ch in raw_line:
+        if ch == " ":
+            width += 1
+        elif ch == "\t":
+            width += 4
+        else:
+            break
+    return width
+def _detect_indent_unit(indents: Iterable[int]) -> int:
+    non_zero = sorted({i for i in indents if i > 0})
+    if not non_zero:
+        return 4
+    unit = non_zero[0]
+    if all(i % unit == 0 for i in indents):
+        return max(1, unit)
+    return max(1, reduce(gcd, non_zero))
+def _infer_level_from_indent(indent: int, unit: int) -> int:
+    if indent <= 0:
+        return 1
+    return min(6, max(1, indent // unit + 1))
+def _strip_star_prefix(line: str) -> Tuple[str, str]:
+    star_prefix = ""
+    m_star = re.match(r"^\*+\s*", line)
+    if m_star:
+        star_prefix = "*" * m_star.group(0).count("*")
+        line = line[m_star.end() :].lstrip()
+    return star_prefix, line
+def _detect_toc_mode(toc_text: str, min_len: int = 1) -> TocMode:
+    """Auto-detect whether TOC hierarchy is expressed by numbering or indentation."""
+    indent_signals = 0
+    numbering_signals = 0
+    for raw_line in toc_text.splitlines():
+        if len(raw_line.strip()) < min_len:
+            continue
+        line = raw_line.lstrip()
+        _, line = _strip_star_prefix(line)
+        page_m = _TRAILING_PAGE_RE.search(line)
+        if not page_m:
+            continue
+        line_wo_page = line[: page_m.start()].rstrip()
+        indent = _leading_indent_width(raw_line)
+        num_m = _NUM_PREFIX_RE.match(line_wo_page)
+        has_numbering = bool(num_m and num_m.group("num"))
+        if has_numbering:
+            numbering_signals += 1
+        elif indent > 0:
+            indent_signals += 1
+    return "indent" if indent_signals > numbering_signals else "numbering"
+def _parse_toc_lines_numbering(
+    toc_text: str,
+    page_offset: int = 0,
+    min_len: int = 1,
+    keep_numbering: bool = True,
+) -> List[Heading]:
+    headings: List[Heading] = []
+    for raw_line in toc_text.splitlines():
+        line = raw_line.strip()
+        if len(line) < min_len:
+            continue
+        star_prefix, line = _strip_star_prefix(line)
+        page_m = _TRAILING_PAGE_RE.search(line)
+        if not page_m:
+            continue
+        page_num = int(page_m.group("page"))
+        line_wo_page = line[: page_m.start()].rstrip()
+        num_m = _NUM_PREFIX_RE.match(line_wo_page)
+        numbering = None
+        title_part = line_wo_page
+        if num_m:
+            numbering = num_m.group("num")
+            title_part = line_wo_page[num_m.end() :].strip()
+        if numbering and keep_numbering:
+            combined = f"{numbering.strip()} {title_part}".strip()
+        else:
+            combined = title_part
+        title = re.sub(r"\s+", " ", combined)
+        if not title:
+            title = line_wo_page.strip() if keep_numbering else title_part.strip()
+        if star_prefix:
+            title = f"{star_prefix}{title}".strip()
+        level = _infer_level_from_numbering(numbering)
+        pdf_page = max(1, page_num + page_offset)
+        headings.append(Heading(title=title, page=pdf_page, level=level))
+    headings.sort(key=lambda h: (h.page, h.level, h.title.lower()))
+    return headings
+def _parse_toc_lines_indent(toc_text: str, page_offset: int = 0, min_len: int = 1) -> List[Heading]:
+    lines_data: List[Tuple[int, str, int]] = []
+    indents: List[int] = []
+    for raw_line in toc_text.splitlines():
+        if len(raw_line.strip()) < min_len:
+            continue
+        indent = _leading_indent_width(raw_line)
+        line = raw_line.lstrip()
+        star_prefix, line = _strip_star_prefix(line)
+        page_m = _TRAILING_PAGE_RE.search(line)
+        if not page_m:
+            continue
+        page_num = int(page_m.group("page"))
+        title = re.sub(r"\s+", " ", line[: page_m.start()].rstrip())
+        if star_prefix:
+            title = f"{star_prefix}{title}".strip()
+        indents.append(indent)
+        lines_data.append((indent, title, page_num))
+    unit = _detect_indent_unit(indents)
+    headings: List[Heading] = []
+    for indent, title, page_num in lines_data:
+        level = _infer_level_from_indent(indent, unit)
+        pdf_page = max(1, page_num + page_offset)
+        headings.append(Heading(title=title, page=pdf_page, level=level))
+    headings.sort(key=lambda h: (h.page, h.level, h.title.lower()))
+    return headings
+def parse_toc_lines(
+    toc_text: str,
+    page_offset: int = 0,
+    min_len: int = 1,
+    mode: TocMode = "auto",
+    keep_numbering: bool = True,
+) -> List[Heading]:
+    """
+    Parse a pasted TOC text into Heading entries.
+    - Each line should end with the book page number (digits)
+    - mode="numbering": hierarchy from leading numbers like "1", "1.1", "第1章"
+    - mode="indent": hierarchy from leading spaces/tabs
+    - mode="auto": detect numbering vs indent automatically
+    - keep_numbering: when True (default), numbering prefix is kept in bookmark titles
+    - page_offset is added to the parsed page number to map to PDF actual pages
+    """
+    resolved_mode = _detect_toc_mode(toc_text, min_len) if mode == "auto" else mode
+    if resolved_mode == "indent":
+        return _parse_toc_lines_indent(toc_text, page_offset=page_offset, min_len=min_len)
+    return _parse_toc_lines_numbering(
+        toc_text, page_offset=page_offset, min_len=min_len, keep_numbering=keep_numbering
+    )
+## URL/website TOC fetching intentionally removed; only manual text input is supported.

{tocsmith-0.1.0 → tocsmith-0.2.0}/tocsmith/gui.py RENAMED Viewed

@@ -68,6 +68,24 @@ class App:
         self.offset_entry = ttk.Entry(ctrl, textvariable=self.offset_var, width=6)
         self.offset_entry.pack(side=tk.LEFT, padx=(4, 12))
+        ttk.Label(ctrl, text="TOC Mode:").pack(side=tk.LEFT)
+        self.toc_mode_var = tk.StringVar(value="auto")
+        self.toc_mode_combo = ttk.Combobox(
+            ctrl,
+            textvariable=self.toc_mode_var,
+            values=["auto", "numbering", "indent"],
+            state="readonly",
+            width=10,
+        )
+        self.toc_mode_combo.pack(side=tk.LEFT, padx=(4, 12))
+        self.keep_numbering_var = tk.BooleanVar(value=True)
+        ttk.Checkbutton(
+            ctrl,
+            text="Keep numbering",
+            variable=self.keep_numbering_var,
+        ).pack(side=tk.LEFT)
         # TOC input
         toc_row = ttk.Frame(frm)
         toc_row.pack(fill=tk.BOTH, expand=True)
@@ -162,6 +180,20 @@ class App:
     # Auto analysis removed
+    def _get_parse_kwargs(self) -> dict:
+        try:
+            offset = int(self.offset_var.get() or 0)
+        except ValueError:
+            offset = 0
+        mode = self.toc_mode_var.get() or "auto"
+        if mode not in ("auto", "numbering", "indent"):
+            mode = "auto"
+        return {
+            "page_offset": offset,
+            "mode": mode,
+            "keep_numbering": self.keep_numbering_var.get(),
+        }
     def _on_generate(self) -> None:
         if not self.in_var.get():
             messagebox.showwarning("Missing", "Please choose an input PDF")
@@ -176,11 +208,7 @@ class App:
             text = self.toc_text.get("1.0", tk.END).strip()
             hs = []
             if text:
-                try:
-                    offset = int(self.offset_var.get() or 0)
-                except ValueError:
-                    offset = 0
-                hs = await run_in_thread(parse_toc_lines, text, offset)
+                hs = await run_in_thread(parse_toc_lines, text, **self._get_parse_kwargs())
             else:
                 hs = []
             await run_in_thread(generate_bookmarks, self.in_var.get(), self.out_var.get(), hs)
@@ -194,14 +222,9 @@ class App:
         if not text:
             messagebox.showwarning("Empty", "Please paste TOC text or URL first")
             return
-        try:
-            offset = int(self.offset_var.get() or 0)
-        except ValueError:
-            offset = 0
         async def task():
             self._set_status("Parsing TOC…")
-            hs = await run_in_thread(parse_toc_lines, text, offset)
+            hs = await run_in_thread(parse_toc_lines, text, **self._get_parse_kwargs())
             self._populate_tree(hs)
             self._set_status(f"Parsed {len(hs)} entries")

{tocsmith-0.1.0 → tocsmith-0.2.0}/tocsmith/tests/test_core.py RENAMED Viewed

@@ -163,3 +163,82 @@ def test_parse_toc_lines_preserve_numbering_with_asterisk():
     assert any(t.startswith("*2 ") and "星标章节" in t for t in titles)
+def test_parse_toc_lines_numbering_mode_example():
+    toc = "\n".join([
+        "1  我是标题  1",
+        "1.1  我是子标题  2",
+        "1.1.1  我是子子标题  3",
+    ])
+    hs = parse_toc_lines(toc, page_offset=0, mode="numbering")
+    assert len(hs) == 3
+    assert hs[0].title == "1 我是标题"
+    assert hs[0].level == 1
+    assert hs[1].title == "1.1 我是子标题"
+    assert hs[1].level == 2
+    assert hs[2].title == "1.1.1 我是子子标题"
+    assert hs[2].level == 3
+def test_parse_toc_lines_indent_mode_example():
+    toc = "\n".join([
+        "我是标题  1",
+        "    我是子标题  2",
+        "        我是子子标题  3",
+    ])
+    hs = parse_toc_lines(toc, page_offset=0, mode="indent")
+    assert len(hs) == 3
+    assert hs[0].title == "我是标题"
+    assert hs[0].level == 1
+    assert hs[1].title == "我是子标题"
+    assert hs[1].level == 2
+    assert hs[2].title == "我是子子标题"
+    assert hs[2].level == 3
+def test_parse_toc_lines_auto_detect_indent():
+    toc = "\n".join([
+        "Chapter A 1",
+        "    Section B 2",
+        "        Subsection C 3",
+    ])
+    hs = parse_toc_lines(toc, page_offset=0, mode="auto")
+    assert [h.level for h in hs] == [1, 2, 3]
+def test_parse_toc_lines_strip_numbering_when_disabled():
+    toc = "\n".join([
+        "第1章 计算机系统概述 1",
+        "1.1 操作系统的基本概念 2",
+        "2 其他章节 10",
+    ])
+    hs = parse_toc_lines(toc, page_offset=0, keep_numbering=False)
+    titles = [h.title for h in hs]
+    assert any(t == "计算机系统概述" for t in titles)
+    assert any(t == "操作系统的基本概念" for t in titles)
+    assert any(t == "其他章节" for t in titles)
+    assert [h.level for h in hs] == [1, 2, 1]
+def test_parse_toc_lines_strip_numbering_with_asterisk():
+    toc = "\n".join([
+        "*1.1 星标小节 12",
+        "* 2 星标章节 13",
+    ])
+    hs = parse_toc_lines(toc, page_offset=0, keep_numbering=False)
+    titles = [h.title for h in hs]
+    assert any(t == "*星标小节" for t in titles)
+    assert any(t == "*星标章节" for t in titles)
+def test_parse_toc_lines_auto_detect_numbering():
+    toc = "\n".join([
+        "第1章 基础 1",
+        "1.1 小节 2",
+    ])
+    hs = parse_toc_lines(toc, page_offset=0, mode="auto")
+    assert hs[0].level == 1
+    assert hs[1].level == 2
+    assert hs[0].title.startswith("第1章")
+    assert hs[1].title.startswith("1.1")

{tocsmith-0.1.0 → tocsmith-0.2.0}/tocsmith.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: tocsmith
-Version: 0.1.0
+Version: 0.2.0
 Summary: Create PDF bookmarks automatically using heuristics, with CLI and async tkinter GUI
 Author-email: Wesley Yang <yxnian@outlook.com>
 Project-URL: Homepage, https://github.com/wesleyel/pdf-bookmark
@@ -25,8 +25,12 @@ Requires-Dist: mypy>=1.10.0; extra == "dev"
 ## 功能概览
 - 手动粘贴目录文本（每行以书中页码结尾），自动解析标题、页码与层级（1..6）
+- 支持两种层级解析方式：
+  - **按序号**：`1 标题 1` / `1.1 子标题 2` / `1.1.1 子子标题 3`，可通过 `keep_numbering` 控制序号是否写入书签标题
+  - **按缩进**：通过行首空格/Tab 缩进表示层级，标题不含序号
+  - 默认 `auto` 自动识别；也可通过 `--toc-mode` 或配置 `toc_mode` 显式指定
 - 支持页码偏移（实际页码 - 书籍页码），用于扫描件/前置页差异
-- 编号前缀会被保留到标题中：如 `第1章`、`1.1` 将出现在最终书签标题里
+- 按序号模式下，默认保留编号前缀到标题中（如 `第1章`、`1.1`）；设置 `keep_numbering = false` 或 `--no-keep-numbering` 可仅用于推断层级
 - 支持行首星号标记：允许输入 `*1.1 Title` 或 `* 1.1 Title`，输出统一为 `*1.1 Title`
 - 将条目以父子层级写入 PDF 书签
 - 提供 CLI 与 GUI；亦可通过 Python API 使用
@@ -82,6 +86,10 @@ tocsmith --help
 page_offset = 0
 # global minimum length
 min_len = 3
+# TOC hierarchy mode: auto | numbering | indent
+toc_mode = "auto"
+# keep numbering prefix in bookmark titles (numbering mode only)
+keep_numbering = true
 # input folder
 input_prefix = "input"
@@ -100,6 +108,26 @@ toc = """
 """
 page_offset = 10
 min_len = 2
+toc_mode = "numbering"
+keep_numbering = false
+```
+### 目录文本格式
+**按序号**（`toc_mode = "numbering"` 或自动识别）：
+```
+1  我是标题  1
+1.1  我是子标题  2
+1.1.1  我是子子标题  3
+```
+**按缩进**（`toc_mode = "indent"` 或自动识别）：
+```
+我是标题  1
+    我是子标题  2
+        我是子子标题  3
 ```
 运行：
@@ -109,7 +137,7 @@ tocsmith --config config.toml
 ```
 说明：
-- `defaults` 中的 `page_offset`、`min_len` 可被每个任务覆盖。
+- `defaults` 中的 `page_offset`、`min_len`、`toc_mode`、`keep_numbering` 可被每个任务覆盖。
 - `input_prefix` 用于解析任务中的 `input_file`；`output_prefix` 为输出目录根。
 - 输出文件名为 `{stem}{output_suffix}`，其中 `stem` 来源于 `input_file`。
 - 任务可直接内联 `toc` 文本；也兼容 `toc_file` 指定外部文件。
@@ -125,6 +153,8 @@ uv run python -m tocsmith.gui
 - 选择输入 PDF
 - 可选：修改输出路径
 - 在 “TOC text” 中粘贴目录文本；在 “Page Offset” 填写偏移（实际 - 书籍）
+- 选择 “TOC Mode”：`auto`（自动识别）、`numbering`（按序号）、`indent`（按缩进）
+- 勾选 “Keep numbering” 控制按序号模式下是否保留标题中的序号（默认保留）
 - 点击 “Parse TOC Text” 查看解析结果
 - 点击 “Generate” 生成带书签的 PDF

tocsmith-0.1.0/tocsmith/core.py DELETED Viewed

@@ -1,122 +0,0 @@
-from __future__ import annotations
-from dataclasses import dataclass
-import re
-from typing import Iterable, List, Tuple, Optional
-from pypdf import PdfReader, PdfWriter
-@dataclass
-class Heading:
-    title: str
-    page: int  # 1-based
-    level: int  # 1..6
-def generate_bookmarks(src_pdf: str, out_pdf: str, headings: Iterable[Heading]) -> None:
-    """Write given headings into a new PDF file as outline/bookmarks."""
-    reader = PdfReader(src_pdf)
-    writer = PdfWriter()
-    for page in reader.pages:
-        writer.add_page(page)
-    # Build hierarchical outlines using a simple stack by levels
-    stack: List[Tuple[int, object]] = []  # (level, parent_ref)
-    for h in headings:
-        page_index = max(0, min(len(reader.pages) - 1, h.page - 1))
-        while stack and stack[-1][0] >= h.level:
-            stack.pop()
-        parent = stack[-1][1] if stack else None
-        dest = writer.add_outline_item(h.title, page_index, parent=parent)
-        stack.append((h.level, dest))
-    with open(out_pdf, "wb") as f:
-        writer.write(f)
-# -------------------- TOC parsing utilities --------------------
-_NUM_PREFIX_RE = re.compile(
-    r"^\s*(?P<num>(第\s*\d+[一二三四五六七八九十百千]*[章节节部分编]?)|((\d+\.)+\d+)|\d+)?\s*"
-)
-_TRAILING_PAGE_RE = re.compile(r"(?P<page>\d{1,5})\s*$")
-def _infer_level_from_numbering(num: Optional[str]) -> int:
-    if not num:
-        return 1
-    num = num.strip()
-    if num.startswith("第"):
-        # "第1章" style => top-level
-        return 1
-    if "." in num:
-        # "1.2.3" => level = segments + 1 (so 1.2 is level 2)
-        return min(6, max(1, num.count(".") + 1))
-    # Simple leading integer like "1" => level 1
-    return 1
-def parse_toc_lines(toc_text: str, page_offset: int = 0, min_len: int = 1) -> List[Heading]:
-    """
-    Parse a pasted TOC text into Heading entries.
-    - Each line should end with the book page number (digits)
-    - Leading numbering like "第1章" or "1.2" is used to infer the level
-    - page_offset is added to the parsed page number to map to PDF actual pages
-    """
-    headings: List[Heading] = []
-    for raw_line in toc_text.splitlines():
-        line = raw_line.strip()
-        if len(line) < min_len:
-            continue
-        # Detect and temporarily strip leading asterisk marker(s)
-        star_prefix = ""
-        m_star = re.match(r"^\*+\s*", line)
-        if m_star:
-            stars = m_star.group(0)
-            star_count = stars.count("*")
-            # Preserve star(s) without trailing space; spacing will be normalized later
-            star_prefix = ("*" * star_count)
-            line = line[m_star.end() :].lstrip()
-        # Extract trailing page digits
-        page_m = _TRAILING_PAGE_RE.search(line)
-        if not page_m:
-            continue
-        page_num = int(page_m.group("page"))
-        # Remove trailing page from the line
-        line_wo_page = line[: page_m.start()].rstrip()
-        # Extract leading numbering if exists
-        num_m = _NUM_PREFIX_RE.match(line_wo_page)
-        numbering = None
-        title_part = line_wo_page
-        if num_m:
-            numbering = num_m.group("num")
-            title_part = line_wo_page[num_m.end() :].strip()
-        # Build title while preserving numbering prefix (e.g., "第1章" or "1.1")
-        if numbering:
-            combined = f"{numbering.strip()} {title_part}".strip()
-        else:
-            combined = title_part
-        # Cleanup whitespace
-        title = re.sub(r"\s+", " ", combined)
-        if not title:
-            # fallback to raw without numbering
-            title = line_wo_page.strip()
-        # Restore asterisk prefix if present
-        if star_prefix:
-            # No space between star(s) and numbering/title
-            title = f"{star_prefix}{title}".strip()
-        level = _infer_level_from_numbering(numbering)
-        pdf_page = max(1, page_num + page_offset)
-        headings.append(Heading(title=title, page=pdf_page, level=level))
-    # Sort by page then by inferred level
-    headings.sort(key=lambda h: (h.page, h.level, h.title.lower()))
-    return headings
-## URL/website TOC fetching intentionally removed; only manual text input is supported.

{tocsmith-0.1.0 → tocsmith-0.2.0}/setup.cfg RENAMED Viewed

File without changes

{tocsmith-0.1.0 → tocsmith-0.2.0}/tocsmith/__init__.py RENAMED Viewed

File without changes

{tocsmith-0.1.0 → tocsmith-0.2.0}/tocsmith.egg-info/SOURCES.txt RENAMED Viewed

File without changes

{tocsmith-0.1.0 → tocsmith-0.2.0}/tocsmith.egg-info/dependency_links.txt RENAMED Viewed

File without changes

{tocsmith-0.1.0 → tocsmith-0.2.0}/tocsmith.egg-info/entry_points.txt RENAMED Viewed

File without changes

{tocsmith-0.1.0 → tocsmith-0.2.0}/tocsmith.egg-info/requires.txt RENAMED Viewed

File without changes

{tocsmith-0.1.0 → tocsmith-0.2.0}/tocsmith.egg-info/top_level.txt RENAMED Viewed

File without changes

tocsmith 0.1.0__tar.gz → 0.2.0__tar.gz

tocsmith 0.1.0tar.gz → 0.2.0tar.gz