PyPI - deepresearch-flow - Versions diffs - 0.6.0__py3-none-any.whl → 0.6.1__py3-none-any.whl - Mend

deepresearch-flow 0.6.0py3-none-any.whl → 0.6.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

deepresearch_flow/paper/db.py CHANGED Viewed

@@ -31,7 +31,8 @@ from deepresearch_flow.paper.template_registry import (
 from deepresearch_flow.paper.render import resolve_render_template, render_papers
 try:
-    from pybtex.database import parse_file
+    from pybtex.database import BibliographyData, parse_file
+    from pybtex.database.output.bibtex import Writer
     PYBTEX_AVAILABLE = True
 except ImportError:
     PYBTEX_AVAILABLE = False
@@ -1015,11 +1016,18 @@ def register_db_commands(db_group: click.Group) -> None:
     def merge_group() -> None:
         """Merge paper JSON inputs."""
-    def _summarize_merge(output_path: Path, merged: list[dict[str, Any]], *, input_count: int) -> None:
+    def _summarize_merge(output_path: Path, merged: Any, *, input_count: int) -> None:
+        items: list[dict[str, Any]] = []
+        if isinstance(merged, dict):
+            raw_items = merged.get("papers")
+            if isinstance(raw_items, list):
+                items = [item for item in raw_items if isinstance(item, dict)]
+        elif isinstance(merged, list):
+            items = [item for item in merged if isinstance(item, dict)]
         field_set: set[str] = set()
-        for item in merged:
-            if isinstance(item, dict):
-                field_set.update(item.keys())
+        for item in items:
+            field_set.update(item.keys())
         field_list = sorted(field_set)
         console = Console()
@@ -1027,7 +1035,7 @@ def register_db_commands(db_group: click.Group) -> None:
         summary.add_column("Metric", style="bold")
         summary.add_column("Value")
         summary.add_row("Inputs", str(input_count))
-        summary.add_row("Items", str(len(merged)))
+        summary.add_row("Items", str(len(items)))
         summary.add_row("Fields", str(len(field_list)))
         summary.add_row("Output", str(output_path))
         console.print(summary)
@@ -1039,17 +1047,65 @@ def register_db_commands(db_group: click.Group) -> None:
                 field_table.add_row(name)
             console.print(field_table)
+    def _bibtex_entry_score(entry: Any) -> int:
+        fields = getattr(entry, "fields", {}) or {}
+        persons = getattr(entry, "persons", {}) or {}
+        person_count = sum(len(people) for people in persons.values())
+        return len(fields) + len(persons) + person_count
+    def _summarize_bibtex_merge(output_path: Path, *, input_count: int, entry_count: int, duplicate_count: int) -> None:
+        summary = Table(title="BibTeX Merge Summary")
+        summary.add_column("Metric", style="bold")
+        summary.add_column("Value")
+        summary.add_row("Inputs", str(input_count))
+        summary.add_row("Entries", str(entry_count))
+        summary.add_row("Duplicates", str(duplicate_count))
+        summary.add_row("Output", str(output_path))
+        Console().print(summary)
     @merge_group.command("library")
     @click.option("-i", "--inputs", "input_paths", multiple=True, required=True, help="Input JSON files")
+    @click.option("--template-tag", "template_tag", default=None, help="Template tag for merged output")
     @click.option("-o", "--output", "output_path", required=True, help="Output JSON file path")
-    def merge_library(input_paths: Iterable[str], output_path: str) -> None:
+    def merge_library(input_paths: Iterable[str], template_tag: str | None, output_path: str) -> None:
         paths = [Path(path) for path in input_paths]
         merged: list[dict[str, Any]] = []
+        tag_candidates: list[str] = []
         for path in paths:
-            merged.extend(load_json(path))
+            payload = load_json(path)
+            if isinstance(payload, dict):
+                tag = str(payload.get("template_tag") or "")
+                if tag:
+                    tag_candidates.append(tag)
+                papers = payload.get("papers")
+                if isinstance(papers, list):
+                    merged.extend(papers)
+                else:
+                    raise click.ClickException("Input JSON must be a list or {template_tag, papers}")
+            elif isinstance(payload, list):
+                merged.extend(payload)
+            else:
+                raise click.ClickException("Input JSON must be a list or {template_tag, papers}")
+        if not template_tag:
+            inferred = ""
+            for paper in merged:
+                if not isinstance(paper, dict):
+                    continue
+                inferred = str(paper.get("prompt_template") or paper.get("template_tag") or "")
+                if inferred:
+                    break
+            if inferred:
+                template_tag = inferred
+        if tag_candidates and not template_tag:
+            template_tag = tag_candidates[0]
+        if not template_tag:
+            template_tag = "unknown"
+        if tag_candidates and any(tag != template_tag for tag in tag_candidates):
+            click.echo("Warning: multiple template_tag values detected in inputs; using first")
         output = Path(output_path)
-        write_json(output, merged)
-        _summarize_merge(output, merged, input_count=len(paths))
+        bundle = {"template_tag": template_tag, "papers": merged}
+        write_json(output, bundle)
+        _summarize_merge(output, bundle, input_count=len(paths))
     @merge_group.command("templates")
     @click.option("-i", "--inputs", "input_paths", multiple=True, required=True, help="Input JSON files")
@@ -1201,6 +1257,62 @@ def register_db_commands(db_group: click.Group) -> None:
                 sample_table.add_row(*row)
             Console().print(sample_table)
+    @merge_group.command("bibtex")
+    @click.option("-i", "--input", "input_paths", multiple=True, required=True, help="Input BibTeX file paths")
+    @click.option("-o", "--output", "output_path", required=True, help="Output BibTeX file path")
+    def merge_bibtex(input_paths: Iterable[str], output_path: str) -> None:
+        if not PYBTEX_AVAILABLE:
+            raise click.ClickException("pybtex is required for merge bibtex")
+        paths = [Path(path) for path in input_paths]
+        if not paths:
+            raise click.ClickException("No BibTeX inputs provided")
+        for path in paths:
+            if not path.is_file():
+                raise click.ClickException(f"BibTeX file not found: {path}")
+        merged_entries: dict[str, tuple[Any, int]] = {}
+        duplicate_keys: list[str] = []
+        duplicate_seen: set[str] = set()
+        for path in paths:
+            bib_data = parse_file(str(path))
+            for key, entry in bib_data.entries.items():
+                score = _bibtex_entry_score(entry)
+                if key not in merged_entries:
+                    merged_entries[key] = (entry, score)
+                    continue
+                if key not in duplicate_seen:
+                    duplicate_seen.add(key)
+                    duplicate_keys.append(key)
+                _, existing_score = merged_entries[key]
+                if score > existing_score:
+                    merged_entries[key] = (entry, score)
+        output = Path(output_path)
+        output.parent.mkdir(parents=True, exist_ok=True)
+        out_data = BibliographyData()
+        for key, (entry, _) in merged_entries.items():
+            out_data.entries[key] = entry
+        with output.open("w", encoding="utf-8") as handle:
+            Writer().write_stream(out_data, handle)
+        _summarize_bibtex_merge(
+            output,
+            input_count=len(paths),
+            entry_count=len(merged_entries),
+            duplicate_count=len(duplicate_keys),
+        )
+        if duplicate_keys:
+            preview_limit = 20
+            preview = ", ".join(duplicate_keys[:preview_limit])
+            if len(duplicate_keys) > preview_limit:
+                preview = f"{preview}, ... (+{len(duplicate_keys) - preview_limit} more)"
+            note = "Kept entry with most fields; ties keep first input order."
+            Console().print(Panel(f"{note}\n{preview}", title=f"Duplicate keys ({len(duplicate_keys)})", style="yellow"))
     @db_group.command("render-md")
     @click.option("-i", "--input", "input_path", required=True, help="Input JSON file path")
     @click.option("-d", "--output-dir", "output_dir", default="rendered_md", help="Output directory")

{deepresearch_flow-0.6.0.dist-info → deepresearch_flow-0.6.1.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: deepresearch-flow
-Version: 0.6.0
+Version: 0.6.1
 Summary: Workflow tools for paper extraction, review, and research automation.
 Author-email: DengQi <dengqi935@gmail.com>
 License: MIT License
@@ -400,6 +400,41 @@ uv run deepresearch-flow paper db merge templates \
 Note: `paper db merge` is now split into `merge library` and `merge templates`.
+### Merge multiple databases (PDF + Markdown + BibTeX)
+```bash
+# 1) Copy PDFs into a single folder
+rsync -av ./pdfs_a/ ./pdfs_merged/
+rsync -av ./pdfs_b/ ./pdfs_merged/
+# 2) Copy Markdown folders into a single folder
+rsync -av ./md_a/ ./md_merged/
+rsync -av ./md_b/ ./md_merged/
+# 3) Merge JSON libraries
+uv run deepresearch-flow paper db merge library \
+  --inputs ./paper_infos_a.json \
+  --inputs ./paper_infos_b.json \
+  --output ./paper_infos_merged.json
+# 4) Merge BibTeX files
+uv run deepresearch-flow paper db merge bibtex \
+  -i ./library_a.bib \
+  -i ./library_b.bib \
+  -o ./library_merged.bib
+```
+### Merge BibTeX files
+```bash
+uv run deepresearch-flow paper db merge bibtex \
+  -i ./library_a.bib \
+  -i ./library_b.bib \
+  -o ./library_merged.bib
+```
+Duplicate keys keep the entry with the most fields; ties keep the first input order.
 ### Recommended: Merge templates then filter by BibTeX
 ```bash

{deepresearch_flow-0.6.0.dist-info → deepresearch_flow-0.6.1.dist-info}/RECORD RENAMED Viewed

@@ -4,7 +4,7 @@ deepresearch_flow/cli.py,sha256=t4oowCNWldL0DrVJ4d0UlRkuGU2qHej_G0mAc_quteQ,455
 deepresearch_flow/paper/__init__.py,sha256=sunaOkcgAJBrfmcaJTumcWbPGVUSGWvOv2a2Yidzy0A,43
 deepresearch_flow/paper/cli.py,sha256=68d-yccScU0yL6d7eqZVdudPO6i_in8F4v-hKDWILMo,13647
 deepresearch_flow/paper/config.py,sha256=V7z4ApPXCV1acSl2FU3nZGq6nt8uisMhm0GtOq5zzmg,12021
-deepresearch_flow/paper/db.py,sha256=UL2q4CFI33a3DZsZ42VOS_3FtTORnQuAogUfzPVjcO0,86579
+deepresearch_flow/paper/db.py,sha256=Bxhrd8NCaPZ9Ijtp1uiOplwh2Uy0n2Dyn1bO0d4A9bE,91780
 deepresearch_flow/paper/db_ops.py,sha256=cb64jn2ax39i3tCS-0DYmlsJdGX3uBS2u5ncUIbUBic,73980
 deepresearch_flow/paper/extract.py,sha256=78ASAyNLfCl1AsAk2o_v1vskZCNZuayaCHgr0S4V2Vs,87632
 deepresearch_flow/paper/llm.py,sha256=mHfs5IkT3Q6BOh46MDlfUmgVTX24WRf0IKKoOnN8nV8,4007
@@ -463,9 +463,9 @@ deepresearch_flow/translator/placeholder.py,sha256=mEgqA-dPdOsIhno0h_hzfpXpY2asb
 deepresearch_flow/translator/prompts.py,sha256=EvfBvBIpQXARDj4m87GAyFXJGL8EJeahj_rOmp9mv68,5556
 deepresearch_flow/translator/protector.py,sha256=yUMuS2FgVofK_MRXrcauLRiwNvdCCjNAnh6CcNd686o,11777
 deepresearch_flow/translator/segment.py,sha256=rBFMCLTrvm2GrPc_hNFymi-8Ih2DAtUQlZHCRE9nLaM,5146
-deepresearch_flow-0.6.0.dist-info/licenses/LICENSE,sha256=hT8F2Py1pe6flxq3Ufdm2UKFk0B8CBm0aAQfsLXfvjw,1063
-deepresearch_flow-0.6.0.dist-info/METADATA,sha256=fyynvn8LYDTZlsIaKDr3SxQbR8nqQSOk3s85ZIh1t6E,25838
-deepresearch_flow-0.6.0.dist-info/WHEEL,sha256=wUyA8OaulRlbfwMtmQsvNngGrxQHAvkKcvRmdizlJi0,92
-deepresearch_flow-0.6.0.dist-info/entry_points.txt,sha256=1uIKscs0YRMg_mFsg9NjsaTt4CvQqQ_-zGERUKhhL_Y,65
-deepresearch_flow-0.6.0.dist-info/top_level.txt,sha256=qBl4RvPJNJUbL8CFfMNWxY0HpQLx5RlF_ko-z_aKpm0,18
-deepresearch_flow-0.6.0.dist-info/RECORD,,
+deepresearch_flow-0.6.1.dist-info/licenses/LICENSE,sha256=hT8F2Py1pe6flxq3Ufdm2UKFk0B8CBm0aAQfsLXfvjw,1063
+deepresearch_flow-0.6.1.dist-info/METADATA,sha256=y_CHy1YJ-3P31W43Q_fd8dEkznj7LKLRrCF6F-sGHaQ,26696
+deepresearch_flow-0.6.1.dist-info/WHEEL,sha256=wUyA8OaulRlbfwMtmQsvNngGrxQHAvkKcvRmdizlJi0,92
+deepresearch_flow-0.6.1.dist-info/entry_points.txt,sha256=1uIKscs0YRMg_mFsg9NjsaTt4CvQqQ_-zGERUKhhL_Y,65
+deepresearch_flow-0.6.1.dist-info/top_level.txt,sha256=qBl4RvPJNJUbL8CFfMNWxY0HpQLx5RlF_ko-z_aKpm0,18
+deepresearch_flow-0.6.1.dist-info/RECORD,,

{deepresearch_flow-0.6.0.dist-info → deepresearch_flow-0.6.1.dist-info}/WHEEL RENAMED Viewed

File without changes

{deepresearch_flow-0.6.0.dist-info → deepresearch_flow-0.6.1.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{deepresearch_flow-0.6.0.dist-info → deepresearch_flow-0.6.1.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{deepresearch_flow-0.6.0.dist-info → deepresearch_flow-0.6.1.dist-info}/top_level.txt RENAMED Viewed

File without changes

deepresearch-flow 0.6.0__py3-none-any.whl → 0.6.1__py3-none-any.whl

deepresearch-flow 0.6.0py3-none-any.whl → 0.6.1py3-none-any.whl