PyPI - arxiv-pulse - Versions diffs - 0.5.0__py3-none-any.whl → 0.6.1__py3-none-any.whl - Mend

arxiv-pulse 0.5.0py3-none-any.whl → 0.6.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

arxiv_pulse/.ENV.TEMPLATE +93 -41
arxiv_pulse/__version__.py +2 -2
arxiv_pulse/arxiv_crawler.py +65 -23
arxiv_pulse/cli.py +228 -433
arxiv_pulse/config.py +6 -8
arxiv_pulse/models.py +17 -9
arxiv_pulse/output_manager.py +38 -54
arxiv_pulse/report_generator.py +3 -46
arxiv_pulse/search_engine.py +105 -53
arxiv_pulse/summarizer.py +0 -1
{arxiv_pulse-0.5.0.dist-info → arxiv_pulse-0.6.1.dist-info}/METADATA +61 -124
arxiv_pulse-0.6.1.dist-info/RECORD +17 -0
arxiv_pulse-0.5.0.dist-info/RECORD +0 -17
{arxiv_pulse-0.5.0.dist-info → arxiv_pulse-0.6.1.dist-info}/WHEEL +0 -0
{arxiv_pulse-0.5.0.dist-info → arxiv_pulse-0.6.1.dist-info}/entry_points.txt +0 -0
{arxiv_pulse-0.5.0.dist-info → arxiv_pulse-0.6.1.dist-info}/licenses/LICENSE +0 -0
{arxiv_pulse-0.5.0.dist-info → arxiv_pulse-0.6.1.dist-info}/top_level.txt +0 -0

arxiv_pulse/cli.py CHANGED Viewed

@@ -10,14 +10,15 @@ from pathlib import Path
 import click
 from dotenv import load_dotenv
 import json
-from datetime import datetime, timedelta
+from datetime import datetime, timedelta, timezone
 import questionary
+import wcwidth
 from arxiv_pulse.config import Config
 from arxiv_pulse.arxiv_crawler import ArXivCrawler
 from arxiv_pulse.summarizer import PaperSummarizer
 from arxiv_pulse.report_generator import ReportGenerator
-from arxiv_pulse.output_manager import output
+from arxiv_pulse.output_manager import output, OutputLevel
 from arxiv_pulse.search_engine import SearchEngine, SearchFilter
 from arxiv_pulse.__version__ import __version__
@@ -234,7 +235,6 @@ def setup_environment(directory: Path):
         # 创建必要的目录
         os.makedirs("data", exist_ok=True)
         os.makedirs("reports", exist_ok=True)
-        os.makedirs("logs", exist_ok=True)
         # 加载 .env 文件（如果存在）
         env_file = directory / ".env"
@@ -267,12 +267,14 @@ def setup_environment(directory: Path):
         Config.AI_MODEL = os.getenv("AI_MODEL", "DeepSeek-V3.2-Thinking")
         Config.AI_BASE_URL = os.getenv("AI_BASE_URL", "https://llmapi.paratera.com")
         Config.SUMMARY_MAX_TOKENS = int(os.getenv("SUMMARY_MAX_TOKENS", "2000"))
-        Config.SUMMARY_SENTENCES_LIMIT = int(os.getenv("SUMMARY_SENTENCES_LIMIT", "3"))
         Config.TOKEN_PRICE_PER_MILLION = float(os.getenv("TOKEN_PRICE_PER_MILLION", "3.0"))
-        Config.MAX_RESULTS_INITIAL = int(os.getenv("MAX_RESULTS_INITIAL", "100"))
-        Config.MAX_RESULTS_DAILY = int(os.getenv("MAX_RESULTS_DAILY", "20"))
+        Config.MAX_RESULTS_INITIAL = int(os.getenv("MAX_RESULTS_INITIAL", "10000"))
+        Config.MAX_RESULTS_DAILY = int(os.getenv("MAX_RESULTS_DAILY", "500"))
         Config.YEARS_BACK = int(os.getenv("YEARS_BACK", "3"))
-        Config.IMPORTANT_PAPERS_FILE = os.getenv("IMPORTANT_PAPERS_FILE", "important_papers.txt")
+        Config.IMPORTANT_PAPERS_FILE = os.getenv("IMPORTANT_PAPERS_FILE", "data/important_papers.txt")
+        Config.ARXIV_MAX_RESULTS = int(os.getenv("ARXIV_MAX_RESULTS", "30000"))
+        Config.ARXIV_SORT_BY = os.getenv("ARXIV_SORT_BY", "submittedDate")
+        Config.ARXIV_SORT_ORDER = os.getenv("ARXIV_SORT_ORDER", "descending")
         Config.REPORT_MAX_PAPERS = int(os.getenv("REPORT_MAX_PAPERS", "50"))
         # 更新 SEARCH_QUERIES
@@ -407,54 +409,74 @@ def print_banner_custom(fields):
     else:
         field_str = f"{fields[0]} • {fields[1]} • {fields[2]} • {fields[3]}"
-    # 计算居中位置 (横幅宽度为55字符，边框各占1字符，内容宽度53字符)
-    # 第一行标题："arXiv Pulse - 文献追踪系统" (25字符)
-    # 需要将字段字符串居中显示
+    # 横幅尺寸
     banner_width = 55
     content_width = 53
-    # 创建横幅
+    # 辅助函数：计算字符串显示宽度
+    def display_width(text):
+        return wcwidth.wcswidth(text)
+    # 辅助函数：截断字符串到指定显示宽度，添加省略号
+    def truncate_to_width(text, max_width):
+        if display_width(text) <= max_width:
+            return text
+        # 逐步减少字符直到宽度合适
+        result = ""
+        for char in text:
+            if display_width(result + char) > max_width - 3:  # 为"..."留出空间
+                break
+            result += char
+        return result + "..." if result else "..."  # 至少返回省略号
+    # 创建横幅边框
     border_top = "╔" + "═" * (banner_width - 2) + "╗"
     border_bottom = "╚" + "═" * (banner_width - 2) + "╝"
     # 第一行标题
     title = "arXiv Pulse - 文献追踪系统"
-    # 标题居中
-    title_padding = (content_width - len(title) * 2) // 2  # 中文占2个英文字符宽度
-    if title_padding < 0:
-        title_padding = 0
-    title_line = "║" + " " * title_padding + title + " " * (content_width - len(title) * 2 - title_padding) + "║"
+    title_width = display_width(title)
+    # 计算左右填充
+    left_padding = (content_width - title_width) // 2
+    right_padding = content_width - title_width - left_padding
+    title_line = "║" + " " * left_padding + title + " " * right_padding + "║"
     # 第二行字段
-    # 简单处理：如果字段字符串太长，截断
-    max_field_len = content_width - 4  # 留出一些边距
-    if len(field_str) * 2 > max_field_len:  # 中文占2个英文字符宽度
-        # 截断字段字符串
-        field_str = field_str[: max_field_len // 2] + "..."
-    field_padding = (content_width - len(field_str) * 2) // 2
-    if field_padding < 0:
-        field_padding = 0
-    field_line = (
-        "║" + " " * field_padding + field_str + " " * (content_width - len(field_str) * 2 - field_padding) + "║"
-    )
+    # 最大字段显示宽度（留出边距）
+    max_field_width = content_width - 4
+    # 截断字段字符串如果太长
+    field_str = truncate_to_width(field_str, max_field_width)
+    field_width = display_width(field_str)
+    # 计算字段行的左右填充
+    left_padding = (content_width - field_width) // 2
+    right_padding = content_width - field_width - left_padding
+    field_line = "║" + " " * left_padding + field_str + " " * right_padding + "║"
     banner = f"\n{border_top}\n{title_line}\n{field_line}\n{border_bottom}\n"
     click.echo(banner)
-def sync_papers(years_back=1, summarize=False):
-    """同步论文（内部函数）"""
+def sync_papers(years_back=1, summarize=False, force=False):
+    """同步论文（内部函数）
+    Args:
+        years_back: 回溯的年数
+        summarize: 是否总结新论文
+        force: 是否强制同步（重新下载所有论文，忽略重复检查）
+    """
     crawler = ArXivCrawler()
     summarizer = PaperSummarizer()
-    click.echo(f"正在同步缺失论文（回溯 {years_back} 年）...")
+    mode_text = "强制同步" if force else "同步缺失论文"
+    click.echo(f"正在{mode_text}（回溯 {years_back} 年）...")
     click.echo("=" * 50)
     # 同步所有查询
     click.echo("1. 正在同步搜索查询...")
-    sync_result = crawler.sync_all_queries(years_back=years_back)
-    click.echo(f"   从查询添加了 {sync_result['total_new_papers']} 篇新论文")
+    sync_result = crawler.sync_all_queries(years_back=years_back, force=force)
+    result_text = "处理了" if force else "添加了"
+    click.echo(f"   从查询{result_text} {sync_result['total_new_papers']} 篇论文")
     # 同步重要论文
     click.echo("2. 正在同步重要论文...")
@@ -480,7 +502,7 @@ def sync_papers(years_back=1, summarize=False):
     click.echo("\n" + "=" * 50)
     click.echo("同步完成！")
-    click.echo(f"总共添加了新论文: {total_new}")
+    click.echo(f"总共{result_text}论文: {total_new}")
     click.echo(f"数据库现有 {crawl_stats['total_papers']} 篇论文")
     click.echo(f"已总结: {summary_stats['summarized_papers']} ({summary_stats['summarization_rate']:.1%})")
@@ -490,12 +512,13 @@ def sync_papers(years_back=1, summarize=False):
         "sync_result": sync_result,
         "important_result": important_result,
         "stats": {"crawl_stats": crawl_stats, "summary_stats": summary_stats},
+        "force_mode": force,
     }
 def get_workday_cutoff(days_back):
     """计算排除周末的截止日期"""
-    current = datetime.utcnow()
+    current = datetime.now(timezone.utc).replace(tzinfo=None)
     workdays_counted = 0
     days_to_go_back = 0
@@ -609,6 +632,11 @@ def generate_search_report(query, search_terms, papers, paper_limit=50, summariz
     """生成搜索结果的报告（内部函数）"""
     reporter = ReportGenerator()
+    # 如果没有找到论文，不生成报告
+    if not papers:
+        output.info("未找到论文，跳过报告生成")
+        return []
     # 设置报告限制
     original_limit = Config.REPORT_MAX_PAPERS
     Config.REPORT_MAX_PAPERS = paper_limit
@@ -698,10 +726,15 @@ def generate_search_report(query, search_terms, papers, paper_limit=50, summariz
 @click.group(context_settings={"help_option_names": ["-h", "--help"]})
+@click.option("--verbose", "-v", is_flag=True, help="显示详细输出（包括调试信息）")
 @click.version_option(version=__version__, prog_name="arXiv Pulse")
-def cli():
+def cli(verbose):
     """arXiv Pulse: 智能arXiv文献追踪和分析系统"""
-    pass
+    if verbose:
+        output.set_min_level(OutputLevel.DEBUG)
+    else:
+        # 确保使用环境变量中的LOG_LEVEL（output manager已经处理）
+        pass
 def interactive_configuration():
@@ -778,10 +811,10 @@ def interactive_configuration():
     click.echo("\n📊 爬虫配置")
     click.echo("-" * 40)
-    max_results_initial = click.prompt("初始同步每个查询的最大论文数", default=100, type=int, show_default=True)
+    max_results_initial = click.prompt("初始同步每个查询的最大论文数", default=10000, type=int, show_default=True)
     config["MAX_RESULTS_INITIAL"] = str(max_results_initial)
-    max_results_daily = click.prompt("每日同步每个查询的最大论文数", default=20, type=int, show_default=True)
+    max_results_daily = click.prompt("每日同步每个查询的最大论文数", default=500, type=int, show_default=True)
     config["MAX_RESULTS_DAILY"] = str(max_results_daily)
     years_back = click.prompt("初始同步回溯的年数", default=5, type=int, show_default=True)
@@ -866,27 +899,24 @@ def interactive_configuration():
     click.echo("-" * 40)
     # 根据领域数量提供建议
-    recommended_initial = 100
-    recommended_daily = 20
-    if num_selected_fields <= 3:
+    if num_selected_fields <= 6:
         click.echo("✅ 您选择了少量领域，保持默认配置即可。")
-    elif num_selected_fields <= 6:
-        recommended_initial = 70
-        recommended_daily = 15
+    elif num_selected_fields <= 10:
+        recommended_initial = 4000
+        recommended_daily = 200
         click.echo(f"⚠️  您选择了中等数量领域，建议调整爬虫配置以避免过多论文：")
-        click.echo(f"   - 初始同步每个查询最大论文数: {recommended_initial} (原默认: 100)")
-        click.echo(f"   - 每日同步每个查询最大论文数: {recommended_daily} (原默认: 20)")
+        click.echo(f"   - 初始同步每个查询最大论文数: {recommended_initial}")
+        click.echo(f"   - 每日同步每个查询最大论文数: {recommended_daily}")
     else:
-        recommended_initial = 50
-        recommended_daily = 10
+        recommended_initial = 1000
+        recommended_daily = 50
         click.echo(f"⚠️  您选择了大量领域 ({num_selected_fields}个)，强烈建议调整爬虫配置：")
-        click.echo(f"   - 初始同步每个查询最大论文数: {recommended_initial} (原默认: 100)")
-        click.echo(f"   - 每日同步每个查询最大论文数: {recommended_daily} (原默认: 20)")
+        click.echo(f"   - 初始同步每个查询最大论文数: {recommended_initial}")
+        click.echo(f"   - 每日同步每个查询最大论文数: {recommended_daily}")
         click.echo(f"   - 注意：同步大量领域可能需要较长时间和更多存储空间。")
     # 询问用户是否应用建议
-    if num_selected_fields > 3:
+    if num_selected_fields > 6:
         if click.confirm("\n💡 是否应用上述建议调整爬虫配置？", default=True):
             config["MAX_RESULTS_INITIAL"] = str(recommended_initial)
             config["MAX_RESULTS_DAILY"] = str(recommended_daily)
@@ -903,9 +933,6 @@ def interactive_configuration():
     report_max_papers = click.prompt("每份报告显示的最大论文数", default=50, type=int, show_default=True)
     config["REPORT_MAX_PAPERS"] = str(report_max_papers)
-    summary_sentences_limit = click.prompt("摘要句子数限制", default=3, type=int, show_default=True)
-    config["SUMMARY_SENTENCES_LIMIT"] = str(summary_sentences_limit)
     click.echo("\n✅ 配置完成！")
     return config, int(years_back)
@@ -920,7 +947,6 @@ def init(directory, years_back):
     # 创建目录结构
     (directory / "data").mkdir(exist_ok=True)
     (directory / "reports").mkdir(exist_ok=True)
-    (directory / "logs").mkdir(exist_ok=True)
     # 创建 .env 文件（如果不存在）
     env_file = directory / ".env"
@@ -937,59 +963,77 @@ def init(directory, years_back):
         if years_back is None:
             years_back = interactive_years_back
-        # 生成 .env 文件内容
-        env_content = f"""# arXiv Pulse 配置文件
-# 由交互式配置向导于 {datetime.now().strftime("%Y-%m-%d %H:%M:%S")} 生成
-# ========================
-# AI API 配置 (支持 OpenAI 格式)
-# ========================
-AI_API_KEY={config.get("AI_API_KEY", "your_api_key_here")}
-AI_MODEL={config.get("AI_MODEL", "DeepSeek-V3.2-Thinking")}
-AI_BASE_URL={config.get("AI_BASE_URL", "https://llmapi.paratera.com")}
-# ========================
-# 数据库配置
-# ========================
-DATABASE_URL=sqlite:///data/arxiv_papers.db
-# ========================
-# 爬虫配置
-# ========================
-MAX_RESULTS_INITIAL={config.get("MAX_RESULTS_INITIAL", "100")}    # init命令每个查询的论文数
-MAX_RESULTS_DAILY={config.get("MAX_RESULTS_DAILY", "20")}        # sync命令每个查询的论文数
-# ========================
-# 搜索查询配置
-# ========================
-# 分号分隔，允许查询中包含逗号
-# 根据您的选择生成的研究领域查询
-SEARCH_QUERIES={config.get("SEARCH_QUERIES", 'condensed matter physics AND cat:cond-mat.*; (ti:"density functional" OR abs:"density functional") AND (cat:physics.comp-ph OR cat:cond-mat.mtrl-sci OR cat:physics.chem-ph); (ti:"machine learning" OR abs:"machine learning") AND (cat:physics.comp-ph OR cat:cond-mat.mtrl-sci OR cat:physics.chem-ph)')}
-# ========================
-# 报告配置
-# ========================
-REPORT_DIR=reports
-SUMMARY_MAX_TOKENS=2000          # 总结和翻译的最大token数
-SUMMARY_SENTENCES_LIMIT={config.get("SUMMARY_SENTENCES_LIMIT", "3")}
-TOKEN_PRICE_PER_MILLION=3.0
-REPORT_MAX_PAPERS={config.get("REPORT_MAX_PAPERS", "50")}
-# ========================
-# 同步配置
-# ========================
-YEARS_BACK={config.get("YEARS_BACK", "3")}               # 同步回溯的年数
-IMPORTANT_PAPERS_FILE=important_papers.txt
-# ========================
-# 可选配置
-# ========================
-# 日志级别: DEBUG, INFO, WARNING, ERROR (默认: INFO)
-LOG_LEVEL=INFO
-# 爬虫延迟（秒，避免频繁请求 arXiv API）
-CRAWL_DELAY=1.0
-"""
+        # 读取 .ENV.TEMPLATE 文件作为基础模板
+        template_file = Path(__file__).parent / ".ENV.TEMPLATE"
+        if not template_file.exists():
+            click.echo(f"❌ 找不到模板文件: {template_file}")
+            click.echo("请确保 .ENV.TEMPLATE 文件存在于 arxiv_pulse 目录中")
+            return
+        env_content = template_file.read_text(encoding="utf-8")
+        # 添加生成时间戳注释（插入到第一行之后）
+        timestamp_comment = f"# 由交互式配置向导于 {datetime.now().strftime('%Y-%m-%d %H:%M:%S')} 生成\n"
+        lines = env_content.split("\n")
+        if lines and lines[0].startswith("#"):
+            # 在第一行注释后插入时间戳
+            lines.insert(1, timestamp_comment)
+        else:
+            # 如果没有注释行，添加到开头
+            lines.insert(0, timestamp_comment)
+        env_content = "\n".join(lines)
+        # 替换配置项（使用 config 字典中的值）
+        # 统一替换逻辑：搜索以键名开头的行，替换整行
+        lines = env_content.split("\n")
+        # AI API 配置
+        for i, line in enumerate(lines):
+            if line.strip().startswith("AI_API_KEY="):
+                lines[i] = f"AI_API_KEY={config.get('AI_API_KEY', 'your_api_key_here')}"
+                break
+        for i, line in enumerate(lines):
+            if line.strip().startswith("AI_MODEL="):
+                lines[i] = f"AI_MODEL={config.get('AI_MODEL', 'DeepSeek-V3.2-Thinking')}"
+                break
+        for i, line in enumerate(lines):
+            if line.strip().startswith("AI_BASE_URL="):
+                lines[i] = f"AI_BASE_URL={config.get('AI_BASE_URL', 'https://llmapi.paratera.com')}"
+                break
+        # 爬虫配置
+        for i, line in enumerate(lines):
+            if line.strip().startswith("MAX_RESULTS_INITIAL="):
+                lines[i] = f"MAX_RESULTS_INITIAL={config.get('MAX_RESULTS_INITIAL', '10000')}"
+                break
+        for i, line in enumerate(lines):
+            if line.strip().startswith("MAX_RESULTS_DAILY="):
+                lines[i] = f"MAX_RESULTS_DAILY={config.get('MAX_RESULTS_DAILY', '500')}"
+                break
+        # 搜索查询配置
+        default_search_queries = 'condensed matter physics AND cat:cond-mat.*; (ti:"density functional" OR abs:"density functional") AND (cat:physics.comp-ph OR cat:cond-mat.mtrl-sci OR cat:physics.chem-ph); (ti:"machine learning" OR abs:"machine learning") AND (cat:physics.comp-ph OR cat:cond-mat.mtrl-sci OR cat:physics.chem-ph)'
+        for i, line in enumerate(lines):
+            if line.strip().startswith("SEARCH_QUERIES="):
+                lines[i] = f"SEARCH_QUERIES={config.get('SEARCH_QUERIES', default_search_queries)}"
+                break
+        # 报告配置
+        for i, line in enumerate(lines):
+            if line.strip().startswith("REPORT_MAX_PAPERS="):
+                lines[i] = f"REPORT_MAX_PAPERS={config.get('REPORT_MAX_PAPERS', '50')}"
+                break
+        # 同步配置
+        for i, line in enumerate(lines):
+            if line.strip().startswith("YEARS_BACK="):
+                lines[i] = f"YEARS_BACK={config.get('YEARS_BACK', '5')}"
+                break
+        env_content = "\n".join(lines)
         env_file.write_text(env_content)
         click.echo(f"\n✅ 已在 {directory} 创建 .env 配置文件")
@@ -1000,10 +1044,12 @@ CRAWL_DELAY=1.0
             years_back = 5  # 默认值
     # 创建 important_papers.txt（如果不存在）
-    important_file = directory / "important_papers.txt"
+    important_file = directory / Config.IMPORTANT_PAPERS_FILE
+    # 确保父目录存在
+    important_file.parent.mkdir(parents=True, exist_ok=True)
     if not important_file.exists():
         important_file.write_text("# 在此添加重要论文的arXiv ID，每行一个\n")
-        click.echo(f"✅ 已在 {directory} 创建 important_papers.txt 文件")
+        click.echo(f"✅ 已创建重要论文文件: {important_file}")
     # 设置环境并验证配置
     if not setup_environment(directory):
@@ -1046,10 +1092,15 @@ CRAWL_DELAY=1.0
 @cli.command()
 @click.argument("directory", type=click.Path(exists=True, file_okay=False), default=".")
-@click.option("--years-back", type=int, default=1, help="同步回溯的年数（默认：1年）")
+@click.option("--years-back", type=int, default=None, help="同步回溯的年数（默认：强制模式5年，普通模式1年）")
 @click.option("--summarize/--no-summarize", default=False, help="是否总结新论文（默认：否）")
-def sync(directory, years_back, summarize):
-    """同步最新论文到数据库"""
+@click.option("--force", is_flag=True, default=False, help="强制同步：重新下载最近N年的所有论文，忽略重复检查")
+def sync(directory, years_back, summarize, force):
+    """同步最新论文到数据库
+    强制模式(--force): 重新下载最近N年的所有论文，忽略重复检查，默认回溯5年。
+    普通模式: 只下载缺失的新论文，默认回溯1年。
+    """
     directory = Path(directory).resolve()
     click.echo(f"正在同步 arXiv Pulse 于 {directory}")
@@ -1058,8 +1109,13 @@ def sync(directory, years_back, summarize):
     print_banner()
+    # 设置默认years_back值
+    if years_back is None:
+        years_back = 5 if force else 1
+        click.echo(f"使用默认回溯年数: {years_back} 年")
     # 同步论文
-    sync_result = sync_papers(years_back=years_back, summarize=summarize)
+    sync_result = sync_papers(years_back=years_back, summarize=summarize, force=force)
     click.echo("\n" + "=" * 50)
     click.echo("同步完成！数据库已更新。")
@@ -1073,8 +1129,19 @@ def sync(directory, years_back, summarize):
 @click.option("--use-ai/--no-ai", default=True, help="是否使用AI理解自然语言查询（默认：是）")
 @click.option("--summarize/--no-summarize", default=True, help="是否自动总结未总结的论文（默认：是）")
 @click.option("--max-summarize", type=int, default=0, help="最大总结论文数（默认：0表示无限制）")
-def search(query, directory, limit, years_back, use_ai, summarize, max_summarize):
-    """智能搜索论文（支持自然语言查询）"""
+@click.option("--categories", "-c", multiple=True, help="包含的分类（可多次使用）")
+@click.option("--days-back", type=int, help="回溯天数（例如：30表示最近30天）")
+@click.option("--authors", "-a", multiple=True, help="作者姓名（可多次使用）")
+@click.option(
+    "--sort-by",
+    type=click.Choice(["published", "relevance_score", "title", "updated"]),
+    default="published",
+    help="排序字段",
+)
+def search(
+    query, directory, limit, years_back, use_ai, summarize, max_summarize, categories, days_back, authors, sort_by
+):
+    """智能搜索论文（支持自然语言查询和基本过滤）"""
     directory = Path(directory).resolve()
     if not setup_environment(directory):
@@ -1086,7 +1153,7 @@ def search(query, directory, limit, years_back, use_ai, summarize, max_summarize
     crawler = ArXivCrawler()
     if years_back > 0:
         click.echo(f"搜索前先同步最近 {years_back} 年论文...")
-        sync_result = sync_papers(years_back=years_back, summarize=False)
+        sync_result = sync_papers(years_back=years_back, summarize=False, force=False)
         crawler = sync_result["crawler"]
     click.echo(f"\n正在搜索: '{query}'")
@@ -1105,10 +1172,22 @@ def search(query, directory, limit, years_back, use_ai, summarize, max_summarize
             用户正在搜索arXiv物理/计算材料科学论文，查询是: "{query}"
             请将自然语言查询转换为适合arXiv搜索的关键词或短语。
-            考虑以下领域：凝聚态物理、密度泛函理论(DFT)、机器学习、力场、分子动力学、量子化学。
-            返回格式：JSON数组，包含最多5个搜索关键词/短语。
-            示例：["machine learning materials science", "density functional theory", "condensed matter physics"]
+            重要规则：
+            1. 如果查询已经是明确的搜索词（如"DeepH"、"deep learning Hamiltonian"、"DFT计算"），直接使用它，不要添加同义词
+            2. 如果查询包含专业术语、缩写或专有名词，保持原样作为主要搜索词
+            3. 仅当查询非常模糊或一般性时（如"机器学习在材料科学中的应用"），才生成1-2个相关关键词
+            4. 优先保持查询的原始意图，不要添加不相关的关键词
+            5. 对于英文查询，保持原样；对于中文查询，翻译为英文关键词
+            考虑以下领域：凝聚态物理、密度泛函理论(DFT)、机器学习、力场、分子动力学、量子化学、计算材料科学。
+            返回格式：JSON数组，包含1-2个搜索关键词/短语。
+            示例：
+            - 查询"DeepH": ["DeepH"]
+            - 查询"deep learning Hamiltonian": ["deep learning Hamiltonian"]
+            - 查询"DFT计算": ["DFT"]
+            - 查询"分子动力学模拟": ["molecular dynamics simulation"]
+            - 查询"机器学习在材料科学中的应用": ["machine learning materials science"]
             只返回JSON数组，不要其他文本。
             """
@@ -1116,7 +1195,10 @@ def search(query, directory, limit, years_back, use_ai, summarize, max_summarize
             response = client.chat.completions.create(
                 model=Config.AI_MODEL,
                 messages=[
-                    {"role": "system", "content": "你是arXiv论文搜索助手，擅长将自然语言查询转换为学术搜索关键词。"},
+                    {
+                        "role": "system",
+                        "content": "你是arXiv论文搜索助手，擅长识别专业术语并将自然语言查询转换为学术搜索关键词。",
+                    },
                     {"role": "user", "content": ai_prompt},
                 ],
                 max_tokens=200,
@@ -1141,30 +1223,30 @@ def search(query, directory, limit, years_back, use_ai, summarize, max_summarize
     with crawler.db.get_session() as session:
         from arxiv_pulse.models import Paper
-        all_results = []
-        for term in search_terms:
-            papers = (
-                session.query(Paper)
-                .filter(
-                    Paper.title.contains(term)
-                    | Paper.abstract.contains(term)
-                    | Paper.categories.contains(term)
-                    | Paper.search_query.contains(term)
-                )
-                .order_by(Paper.published.desc())
-                .limit(limit)
-                .all()
-            )
-            all_results.extend(papers)
+        # 使用增强搜索引擎进行模糊搜索
+        search_engine = SearchEngine(session)
-        # 去重并排序
-        unique_papers = {}
-        for paper in all_results:
-            if paper.arxiv_id not in unique_papers:
-                unique_papers[paper.arxiv_id] = paper
+        # 将搜索词合并为一个查询（搜索引擎会处理单词拆分和同义词扩展）
+        combined_query = " ".join(search_terms)
+        filter_config = SearchFilter(
+            query=combined_query,
+            search_fields=["title", "abstract"],
+            categories=list(categories) if categories else None,
+            authors=list(authors) if authors else None,
+            author_match="contains",  # 默认使用包含匹配
+            days_back=days_back,
+            limit=limit * min(len(search_terms), 2),  # 扩大限制但最多2倍，避免过多结果
+            sort_by=sort_by,
+            sort_order="desc",
+            match_all=True,  # AND逻辑：匹配所有搜索词
+        )
+        # 执行搜索
+        papers_to_show = search_engine.search_papers(filter_config)
-        sorted_papers = sorted(unique_papers.values(), key=lambda p: p.published or datetime.min, reverse=True)
-        papers_to_show = sorted_papers[:limit]
+        # 确保不超过限制
+        papers_to_show = papers_to_show[:limit]
         click.echo(f"找到 {len(papers_to_show)} 篇论文:")
@@ -1219,7 +1301,7 @@ def recent(directory, limit, days_back, years_back, summarize, max_summarize):
     # 先同步论文
     if years_back > 0:
         click.echo(f"报告前先同步最近 {years_back} 年论文...")
-        sync_papers(years_back=years_back, summarize=False)
+        sync_papers(years_back=years_back, summarize=False, force=False)
     # 生成报告
     click.echo("\n" + "=" * 50)
@@ -1294,8 +1376,6 @@ def stat(directory):
     # 时间分布
     click.echo(f"\n📅 时间分布:")
     with crawler.db.get_session() as session:
-        from datetime import datetime, timedelta
         # 按年统计
         year_stats = {}
         for paper in papers:
@@ -1319,290 +1399,5 @@ def stat(directory):
     click.echo("统计完成 ✅")
-@cli.command()
-@click.argument("paper_id")
-@click.argument("directory", type=click.Path(exists=True, file_okay=False), default=".")
-@click.option("--limit", default=10, help="返回结果的最大数量（默认：10）")
-@click.option("--threshold", type=float, default=0.5, help="相似度阈值（0.0-1.0，默认：0.5）")
-@click.option("--years-back", type=int, default=0, help="搜索前同步回溯的年数（默认：0，不更新）")
-def similar(paper_id, directory, limit, threshold, years_back):
-    """查找与指定论文相似的论文"""
-    directory = Path(directory).resolve()
-    if not setup_environment(directory):
-        sys.exit(1)
-    print_banner()
-    # 如果需要，先同步最新论文
-    crawler = ArXivCrawler()
-    if years_back > 0:
-        click.echo(f"搜索前先同步最近 {years_back} 年论文...")
-        sync_result = sync_papers(years_back=years_back, summarize=False)
-        crawler = sync_result["crawler"]
-    click.echo(f"\n查找与论文 '{paper_id}' 相似的论文")
-    click.echo("=" * 50)
-    with crawler.db.get_session() as session:
-        # 创建搜索引擎
-        search_engine = SearchEngine(session)
-        # 查找相似论文
-        click.echo(f"正在查找相似度≥{threshold}的论文...")
-        similar_papers_with_scores = search_engine.search_similar_papers(paper_id, limit=limit, threshold=threshold)
-        if not similar_papers_with_scores:
-            click.echo("未找到相似论文。")
-            return
-        click.echo(f"找到 {len(similar_papers_with_scores)} 篇相似论文:")
-        # 提取paper列表用于报告生成
-        similar_papers = [paper for paper, _ in similar_papers_with_scores]
-        # 显示结果
-        for i, (paper, similarity) in enumerate(similar_papers_with_scores, 1):
-            authors = json.loads(paper.authors) if paper.authors else []
-            author_names = [a.get("name", "") for a in authors[:2]]
-            if len(authors) > 2:
-                author_names.append("等")
-            click.echo(f"\n{i}. {paper.title}")
-            click.echo(f"   相似度: {similarity:.2f}")
-            click.echo(f"   作者: {', '.join(author_names)}")
-            click.echo(f"   arXiv ID: {paper.arxiv_id}")
-            click.echo(f"   分类: {paper.categories}")
-            click.echo(f"   发布日期: {paper.published.strftime('%Y-%m-%d') if paper.published else 'N/A'}")
-        # 生成报告
-        click.echo("\n正在生成相似论文报告...")
-        report_files = generate_search_report(
-            f"与 {paper_id} 相似的论文", [f"similar to {paper_id}"], similar_papers, paper_limit=limit
-        )
-        click.echo(f"报告生成完成：")
-        for f in report_files:
-            click.echo(f"  - {f}")
-@cli.command()
-@click.argument("query")
-@click.argument("directory", type=click.Path(exists=True, file_okay=False), default=".")
-@click.option("--limit", default=20, help="返回结果的最大数量（默认：20）")
-@click.option("--years-back", type=int, default=0, help="搜索前同步回溯的年数（默认：0，不更新）")
-@click.option("--use-ai/--no-ai", default=True, help="是否使用AI理解自然语言查询（默认：是）")
-@click.option("--categories", "-c", multiple=True, help="包含的分类（可多次使用）")
-@click.option("--exclude-categories", "-ec", multiple=True, help="排除的分类（可多次使用）")
-@click.option("--primary-category", "-pc", help="主要分类")
-@click.option("--authors", "-a", multiple=True, help="作者姓名（可多次使用）")
-@click.option(
-    "--author-match",
-    type=click.Choice(["contains", "exact", "any"]),
-    default="contains",
-    help="作者匹配方式：contains（包含）、exact（精确）、any（任一）",
-)
-@click.option("--date-from", type=click.DateTime(formats=["%Y-%m-%d"]), help="起始日期（格式：YYYY-MM-DD）")
-@click.option("--date-to", type=click.DateTime(formats=["%Y-%m-%d"]), help="结束日期（格式：YYYY-MM-DD）")
-@click.option("--days-back", type=int, help="回溯天数（例如：30表示最近30天）")
-@click.option("--summarized-only/--no-summarized-only", default=False, help="仅显示已总结的论文")
-@click.option("--downloaded-only/--no-downloaded-only", default=False, help="仅显示已下载的论文")
-@click.option(
-    "--sort-by",
-    type=click.Choice(["published", "relevance_score", "title", "updated", "created_at"]),
-    default="published",
-    help="排序字段",
-)
-@click.option("--sort-order", type=click.Choice(["asc", "desc"]), default="desc", help="排序顺序")
-@click.option("--match-all/--match-any", default=False, help="匹配所有条件（AND逻辑）或任一条件（OR逻辑）")
-def search_advanced(
-    query,
-    directory,
-    limit,
-    years_back,
-    use_ai,
-    categories,
-    exclude_categories,
-    primary_category,
-    authors,
-    author_match,
-    date_from,
-    date_to,
-    days_back,
-    summarized_only,
-    downloaded_only,
-    sort_by,
-    sort_order,
-    match_all,
-):
-    """高级搜索论文（支持多字段过滤）"""
-    directory = Path(directory).resolve()
-    if not setup_environment(directory):
-        sys.exit(1)
-    print_banner()
-    # 如果需要，先同步最新论文
-    crawler = ArXivCrawler()
-    if years_back > 0:
-        click.echo(f"搜索前先同步最近 {years_back} 年论文...")
-        sync_result = sync_papers(years_back=years_back, summarize=False)
-        crawler = sync_result["crawler"]
-    click.echo(f"\n高级搜索: '{query}'")
-    click.echo("=" * 50)
-    search_terms = [query]
-    # 如果启用AI且配置了AI API密钥，尝试解析自然语言查询
-    if use_ai and Config.AI_API_KEY:
-        try:
-            import openai
-            client = openai.OpenAI(api_key=Config.AI_API_KEY, base_url=Config.AI_BASE_URL)
-            ai_prompt = f"""
-            用户正在搜索arXiv物理/计算材料科学论文，查询是: "{query}"
-            请将自然语言查询转换为适合arXiv搜索的关键词或短语。
-            考虑以下领域：凝聚态物理、密度泛函理论(DFT)、机器学习、力场、分子动力学、量子化学。
-            返回格式：JSON数组，包含最多5个搜索关键词/短语。
-            示例：["machine learning materials science", "density functional theory", "condensed matter physics"]
-            只返回JSON数组，不要其他文本。
-            """
-            response = client.chat.completions.create(
-                model=Config.AI_MODEL,
-                messages=[
-                    {"role": "system", "content": "你是arXiv论文搜索助手，擅长将自然语言查询转换为学术搜索关键词。"},
-                    {"role": "user", "content": ai_prompt},
-                ],
-                max_tokens=200,
-                temperature=0.3,
-            )
-            ai_response = response.choices[0].message.content
-            try:
-                search_terms = json.loads(ai_response)
-                if isinstance(search_terms, list) and len(search_terms) > 0:
-                    click.echo(f"AI解析的搜索词: {', '.join(search_terms[:3])}")
-                    if len(search_terms) > 3:
-                        click.echo(f"  以及 {len(search_terms) - 3} 个其他关键词")
-            except:
-                # 如果AI响应不是有效JSON，使用原始查询
-                pass
-        except Exception as e:
-            click.echo(f"AI解析失败，使用原始查询: {e}")
-    # 使用增强搜索引擎
-    with crawler.db.get_session() as session:
-        # 创建搜索过滤器
-        filter_config = SearchFilter(
-            query=query,
-            categories=list(categories) if categories else None,
-            exclude_categories=list(exclude_categories) if exclude_categories else None,
-            primary_category=primary_category,
-            authors=list(authors) if authors else None,
-            author_match=author_match,
-            date_from=date_from,
-            date_to=date_to,
-            days_back=days_back,
-            summarized_only=summarized_only,
-            downloaded_only=downloaded_only,
-            limit=limit,
-            sort_by=sort_by,
-            sort_order=sort_order,
-            match_all=match_all,
-        )
-        # 创建搜索引擎
-        search_engine = SearchEngine(session)
-        # 执行搜索
-        click.echo(f"正在搜索...")
-        papers = search_engine.search_papers(filter_config)
-        if not papers:
-            click.echo("未找到匹配的论文。")
-            return
-        click.echo(f"找到 {len(papers)} 篇论文:")
-        # 显示简要结果
-        for i, paper in enumerate(papers[:5], 1):  # 只显示前5篇作为预览
-            authors_list = json.loads(paper.authors) if paper.authors else []
-            author_names = [a.get("name", "") for a in authors_list[:2]]
-            if len(authors_list) > 2:
-                author_names.append("等")
-            click.echo(f"\n{i}. {paper.title}")
-            click.echo(f"   作者: {', '.join(author_names)}")
-            click.echo(f"   arXiv ID: {paper.arxiv_id}")
-            click.echo(f"   分类: {paper.categories}")
-            click.echo(f"   发布日期: {paper.published.strftime('%Y-%m-%d') if paper.published else 'N/A'}")
-            click.echo(f"   总结状态: {'已总结' if paper.summarized else '未总结'}")
-        if len(papers) > 5:
-            click.echo(f"\n... 以及 {len(papers) - 5} 篇更多论文")
-        # 生成搜索报告
-        click.echo("\n正在生成搜索报告...")
-        files = generate_search_report(directory, query, search_terms, papers, paper_limit=limit)
-        click.echo(f"报告生成完成：")
-        for f in files:
-            click.echo(f"  - {f}")
-        click.echo(f"\n详细论文信息、中文翻译和PDF链接请查看生成的Markdown报告。")
-@cli.command()
-@click.argument("directory", type=click.Path(exists=True, file_okay=False), default=".")
-@click.option("--limit", default=10, help="显示的搜索查询数量（默认：10）")
-def search_history(directory, limit):
-    """显示搜索历史（按使用频率排序）"""
-    directory = Path(directory).resolve()
-    if not setup_environment(directory):
-        sys.exit(1)
-    print_banner()
-    crawler = ArXivCrawler()
-    click.echo("\n" + "=" * 50)
-    click.echo("搜索历史")
-    click.echo("=" * 50)
-    with crawler.db.get_session() as session:
-        # 创建搜索引擎
-        search_engine = SearchEngine(session)
-        # 获取搜索历史
-        click.echo(f"正在获取搜索历史...")
-        history = search_engine.get_search_history(limit=limit)
-        if not history:
-            click.echo("暂无搜索历史。")
-            return
-        click.echo(f"\n找到 {len(history)} 个搜索查询:")
-        click.echo("-" * 50)
-        for i, item in enumerate(history, 1):
-            last_used = item["last_used"].strftime("%Y-%m-%d") if item["last_used"] else "N/A"
-            click.echo(f"\n{i}. 查询: {item['query']}")
-            click.echo(f"   使用次数: {item['count']}")
-            click.echo(f"   最后使用: {last_used}")
-            if item["last_paper_id"]:
-                click.echo(f"   最后论文ID: {item['last_paper_id']}")
-        click.echo(f"\n💡 提示: 使用 'pulse search \"查询内容\" .' 重用搜索")
-        click.echo(f"     或 'pulse search-advanced \"查询内容\" . --categories 分类' 进行高级搜索")
 if __name__ == "__main__":
     cli()

arxiv-pulse 0.5.0__py3-none-any.whl → 0.6.1__py3-none-any.whl

arxiv-pulse 0.5.0py3-none-any.whl → 0.6.1py3-none-any.whl