PyPI - crawlo - Versions diffs - 1.3.2__tar.gz → 1.3.4__tar.gz - Mend

crawlo 1.3.2tar.gz → 1.3.4tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of crawlo might be problematic. Click here for more details.

Files changed (299) hide show

{crawlo-1.3.2/crawlo.egg-info → crawlo-1.3.4}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: crawlo
-Version: 1.3.2
+Version: 1.3.4
 Summary: Crawlo 是一款基于异步IO的高性能Python爬虫框架，支持分布式抓取。
 Home-page: https://github.com/crawl-coder/Crawlo.git
 Author: crawl-coder
@@ -132,13 +132,13 @@ Requires-Dist: selenium>=3.141.0; extra == "all"
 ### 安装
-```bash
+``bash
 pip install crawlo
 ```
 ### 创建项目
-```bash
+``bash
 # 创建默认项目
 crawlo startproject myproject
@@ -153,7 +153,7 @@ cd myproject
 ### 生成爬虫
-```bash
+``bash
 # 在项目目录中生成爬虫
 crawlo genspider news_spider news.example.com
 ```
@@ -182,7 +182,7 @@ class MySpider(Spider):
 ### 运行爬虫
-```bash
+``bash
 # 使用命令行工具运行爬虫（推荐）
 crawlo run myspider
@@ -289,7 +289,7 @@ Crawlo 提供了多种灵活的配置方式，以适应不同的使用场景和
 使用 `CrawloConfig` 配置工厂是推荐的配置方式，它提供了类型安全和智能提示。
-```python
+``python
 from crawlo.config import CrawloConfig
 from crawlo.crawler import CrawlerProcess
@@ -363,7 +363,7 @@ process = CrawlerProcess(settings=config.to_dict())
 适用于开发调试、小规模数据采集、个人项目。
 **推荐配置方式：**
-```python
+``python
 from crawlo.config import CrawloConfig
 config = CrawloConfig.standalone(concurrency=4, download_delay=1.0)
 process = CrawlerProcess(settings=config.to_dict())
@@ -379,7 +379,7 @@ process = CrawlerProcess(settings=config.to_dict())
 适用于大规模数据采集、多节点协同工作、高并发需求。
 **推荐配置方式：**
-```python
+``python
 from crawlo.config import CrawloConfig
 config = CrawloConfig.distributed(
     redis_host='your_redis_host',
@@ -400,7 +400,7 @@ process = CrawlerProcess(settings=config.to_dict())
 适用于希望根据环境自动选择最佳运行方式。
 **推荐配置方式：**
-```python
+``python
 from crawlo.config import CrawloConfig
 config = CrawloConfig.auto(concurrency=12)
 process = CrawlerProcess(settings=config.to_dict())
@@ -453,7 +453,7 @@ CUSTOM_MIDDLEWARES = [
 用户可以通过`CUSTOM_PIPELINES`配置自定义管道：
-```python
+``python
 # settings.py
 CUSTOM_PIPELINES = [
     'crawlo.pipelines.json_pipeline.JsonPipeline',
@@ -839,7 +839,7 @@ request = Request(
 可以同时使用多种参数类型，框架会自动处理：
-```python
+``python
 # GET请求同时使用params和form_data（都会作为查询参数）
 request = Request(
     url='https://api.example.com/search',
@@ -881,7 +881,7 @@ request = Request(
 Request类支持链式调用来简化配置：
-```python
+``python
 request = Request('https://example.com')\
     .add_header('User-Agent', 'Crawlo Bot')\
     .set_proxy('http://proxy.example.com:8080')\
@@ -894,7 +894,7 @@ request = Request('https://example.com')\
 Crawlo提供了多种预定义的请求优先级：
-```python
+``python
 from crawlo import Request, RequestPriority
 # 设置不同的优先级
@@ -909,7 +909,7 @@ background_request = Request('https://example.com', priority=RequestPriority.BAC
 对于需要JavaScript渲染的页面，可以启用动态加载器：
-```python
+``python
 # 启用动态加载器
 request = Request('https://example.com')\
     .set_dynamic_loader(use_dynamic=True)
@@ -980,12 +980,118 @@ PROXY_LIST = [
 ---
+<!-- 高级工具 section -->
+<h2 align="center">🛠️ 高级工具</h2>
+Crawlo 框架提供了一系列高级工具，帮助开发者更好地处理大规模爬虫任务和复杂场景。
+### 1. 工厂模式相关模块
+**功能**：
+- 组件创建和依赖注入
+- 单例模式支持
+- 统一的组件管理机制
+**使用场景**：
+- 需要统一管理组件创建过程
+- 需要依赖注入功能
+- 需要单例组件实例
+### 2. 批处理工具
+**功能**：
+- 大规模数据处理
+- 并发控制
+- 内存使用优化
+**使用场景**：
+- 处理大量数据项
+- 需要控制并发数量
+- 内存敏感的数据处理任务
+### 3. 受控爬虫混入类
+**功能**：
+- 控制大规模请求生成
+- 防止内存溢出
+- 动态并发控制
+**使用场景**：
+- 需要生成大量请求的爬虫
+- 内存受限的环境
+- 需要精确控制并发的场景
+### 4. 大规模配置工具
+**功能**：
+- 针对不同场景的优化配置
+- 简化配置过程
+- 提高爬取效率和稳定性
+**配置类型**：
+- **保守型**: 资源受限环境
+- **平衡型**: 一般生产环境
+- **激进型**: 高性能服务器
+- **内存优化型**: 内存受限但要处理大量请求
+**使用场景**：
+- 处理数万+请求的大规模爬取
+- 不同性能环境的适配
+- 快速配置优化
+### 5. 大规模爬虫辅助工具
+**功能**：
+- 批量数据处理
+- 进度管理和断点续传
+- 内存使用优化
+- 多种数据源支持
+**组件**：
+- **LargeScaleHelper**: 批量迭代大量数据
+- **ProgressManager**: 进度管理
+- **MemoryOptimizer**: 内存优化
+- **DataSourceAdapter**: 数据源适配器
+**使用场景**：
+- 处理数万+ URL的爬虫
+- 需要断点续传的功能
+- 内存敏感的大规模处理任务
+### 6. 自动爬虫模块导入
+**功能**：
+- 自动发现和导入爬虫模块
+- 无需手动导入即可注册爬虫
+- 智能扫描项目中的爬虫文件
+**使用方式**：
+框架会自动扫描指定的`spider_modules`路径，导入其中的所有爬虫模块并自动注册爬虫类。用户只需在创建`CrawlerProcess`时指定`spider_modules`参数：
+```python
+# 指定爬虫模块路径，框架会自动导入并注册所有爬虫
+spider_modules = ['myproject.spiders']
+process = CrawlerProcess(spider_modules=spider_modules)
+# 运行指定的爬虫（无需手动导入）
+asyncio.run(process.crawl('my_spider_name'))
+```
+**优势**：
+- 简化项目结构，减少样板代码
+- 自动化管理爬虫注册过程
+- 提高开发效率，降低出错概率
+- 保持代码整洁和一致性
+有关这些高级工具的详细使用方法和实际案例，请参考 [高级工具示例项目](examples/advanced_tools_example/)。
 <!-- 示例项目 section -->
 <h2 align="center">📦 示例项目</h2>
 - [OFweek分布式爬虫](examples/ofweek_distributed/) - 复杂的分布式爬虫示例，包含Redis去重功能
 - [OFweek独立爬虫](examples/ofweek_standalone/) - 独立运行的爬虫示例
 - [OFweek混合模式爬虫](examples/ofweek_spider/) - 支持单机和分布式模式切换的爬虫示例
+- [高级工具示例](examples/advanced_tools_example/) - 展示Crawlo框架中各种高级工具的使用方法，包括工厂模式、批处理工具、受控爬虫混入类、大规模配置工具和大规模爬虫辅助工具
 ---

{crawlo-1.3.2 → crawlo-1.3.4}/README.md RENAMED Viewed

@@ -82,13 +82,13 @@
 ### 安装
-```bash
+``bash
 pip install crawlo
 ```
 ### 创建项目
-```bash
+``bash
 # 创建默认项目
 crawlo startproject myproject
@@ -103,7 +103,7 @@ cd myproject
 ### 生成爬虫
-```bash
+``bash
 # 在项目目录中生成爬虫
 crawlo genspider news_spider news.example.com
 ```
@@ -132,7 +132,7 @@ class MySpider(Spider):
 ### 运行爬虫
-```bash
+``bash
 # 使用命令行工具运行爬虫（推荐）
 crawlo run myspider
@@ -239,7 +239,7 @@ Crawlo 提供了多种灵活的配置方式，以适应不同的使用场景和
 使用 `CrawloConfig` 配置工厂是推荐的配置方式，它提供了类型安全和智能提示。
-```python
+``python
 from crawlo.config import CrawloConfig
 from crawlo.crawler import CrawlerProcess
@@ -313,7 +313,7 @@ process = CrawlerProcess(settings=config.to_dict())
 适用于开发调试、小规模数据采集、个人项目。
 **推荐配置方式：**
-```python
+``python
 from crawlo.config import CrawloConfig
 config = CrawloConfig.standalone(concurrency=4, download_delay=1.0)
 process = CrawlerProcess(settings=config.to_dict())
@@ -329,7 +329,7 @@ process = CrawlerProcess(settings=config.to_dict())
 适用于大规模数据采集、多节点协同工作、高并发需求。
 **推荐配置方式：**
-```python
+``python
 from crawlo.config import CrawloConfig
 config = CrawloConfig.distributed(
     redis_host='your_redis_host',
@@ -350,7 +350,7 @@ process = CrawlerProcess(settings=config.to_dict())
 适用于希望根据环境自动选择最佳运行方式。
 **推荐配置方式：**
-```python
+``python
 from crawlo.config import CrawloConfig
 config = CrawloConfig.auto(concurrency=12)
 process = CrawlerProcess(settings=config.to_dict())
@@ -403,7 +403,7 @@ CUSTOM_MIDDLEWARES = [
 用户可以通过`CUSTOM_PIPELINES`配置自定义管道：
-```python
+``python
 # settings.py
 CUSTOM_PIPELINES = [
     'crawlo.pipelines.json_pipeline.JsonPipeline',
@@ -789,7 +789,7 @@ request = Request(
 可以同时使用多种参数类型，框架会自动处理：
-```python
+``python
 # GET请求同时使用params和form_data（都会作为查询参数）
 request = Request(
     url='https://api.example.com/search',
@@ -831,7 +831,7 @@ request = Request(
 Request类支持链式调用来简化配置：
-```python
+``python
 request = Request('https://example.com')\
     .add_header('User-Agent', 'Crawlo Bot')\
     .set_proxy('http://proxy.example.com:8080')\
@@ -844,7 +844,7 @@ request = Request('https://example.com')\
 Crawlo提供了多种预定义的请求优先级：
-```python
+``python
 from crawlo import Request, RequestPriority
 # 设置不同的优先级
@@ -859,7 +859,7 @@ background_request = Request('https://example.com', priority=RequestPriority.BAC
 对于需要JavaScript渲染的页面，可以启用动态加载器：
-```python
+``python
 # 启用动态加载器
 request = Request('https://example.com')\
     .set_dynamic_loader(use_dynamic=True)
@@ -930,12 +930,118 @@ PROXY_LIST = [
 ---
+<!-- 高级工具 section -->
+<h2 align="center">🛠️ 高级工具</h2>
+Crawlo 框架提供了一系列高级工具，帮助开发者更好地处理大规模爬虫任务和复杂场景。
+### 1. 工厂模式相关模块
+**功能**：
+- 组件创建和依赖注入
+- 单例模式支持
+- 统一的组件管理机制
+**使用场景**：
+- 需要统一管理组件创建过程
+- 需要依赖注入功能
+- 需要单例组件实例
+### 2. 批处理工具
+**功能**：
+- 大规模数据处理
+- 并发控制
+- 内存使用优化
+**使用场景**：
+- 处理大量数据项
+- 需要控制并发数量
+- 内存敏感的数据处理任务
+### 3. 受控爬虫混入类
+**功能**：
+- 控制大规模请求生成
+- 防止内存溢出
+- 动态并发控制
+**使用场景**：
+- 需要生成大量请求的爬虫
+- 内存受限的环境
+- 需要精确控制并发的场景
+### 4. 大规模配置工具
+**功能**：
+- 针对不同场景的优化配置
+- 简化配置过程
+- 提高爬取效率和稳定性
+**配置类型**：
+- **保守型**: 资源受限环境
+- **平衡型**: 一般生产环境
+- **激进型**: 高性能服务器
+- **内存优化型**: 内存受限但要处理大量请求
+**使用场景**：
+- 处理数万+请求的大规模爬取
+- 不同性能环境的适配
+- 快速配置优化
+### 5. 大规模爬虫辅助工具
+**功能**：
+- 批量数据处理
+- 进度管理和断点续传
+- 内存使用优化
+- 多种数据源支持
+**组件**：
+- **LargeScaleHelper**: 批量迭代大量数据
+- **ProgressManager**: 进度管理
+- **MemoryOptimizer**: 内存优化
+- **DataSourceAdapter**: 数据源适配器
+**使用场景**：
+- 处理数万+ URL的爬虫
+- 需要断点续传的功能
+- 内存敏感的大规模处理任务
+### 6. 自动爬虫模块导入
+**功能**：
+- 自动发现和导入爬虫模块
+- 无需手动导入即可注册爬虫
+- 智能扫描项目中的爬虫文件
+**使用方式**：
+框架会自动扫描指定的`spider_modules`路径，导入其中的所有爬虫模块并自动注册爬虫类。用户只需在创建`CrawlerProcess`时指定`spider_modules`参数：
+```python
+# 指定爬虫模块路径，框架会自动导入并注册所有爬虫
+spider_modules = ['myproject.spiders']
+process = CrawlerProcess(spider_modules=spider_modules)
+# 运行指定的爬虫（无需手动导入）
+asyncio.run(process.crawl('my_spider_name'))
+```
+**优势**：
+- 简化项目结构，减少样板代码
+- 自动化管理爬虫注册过程
+- 提高开发效率，降低出错概率
+- 保持代码整洁和一致性
+有关这些高级工具的详细使用方法和实际案例，请参考 [高级工具示例项目](examples/advanced_tools_example/)。
 <!-- 示例项目 section -->
 <h2 align="center">📦 示例项目</h2>
 - [OFweek分布式爬虫](examples/ofweek_distributed/) - 复杂的分布式爬虫示例，包含Redis去重功能
 - [OFweek独立爬虫](examples/ofweek_standalone/) - 独立运行的爬虫示例
 - [OFweek混合模式爬虫](examples/ofweek_spider/) - 支持单机和分布式模式切换的爬虫示例
+- [高级工具示例](examples/advanced_tools_example/) - 展示Crawlo框架中各种高级工具的使用方法，包括工厂模式、批处理工具、受控爬虫混入类、大规模配置工具和大规模爬虫辅助工具
 ---

{crawlo-1.3.2 → crawlo-1.3.4}/crawlo/__init__.py RENAMED Viewed

@@ -3,6 +3,8 @@
 """
 Crawlo - 一个异步爬虫框架
 """
+from typing import TYPE_CHECKING
 from crawlo.spider import Spider
 from crawlo.items import Item, Field
 from crawlo.network.request import Request
@@ -24,9 +26,29 @@ from crawlo.utils import (
 )
 from crawlo import tools
+# 框架核心模块 - 使用TYPE_CHECKING避免循环导入
+if TYPE_CHECKING:
+    from crawlo.core.framework_initializer import get_framework_initializer, initialize_framework
 # 为了向后兼容，从tools中导入cleaners相关的功能
 import crawlo.tools as cleaners
+# 延迟导入的辅助函数
+def get_framework_initializer():
+    """延迟导入get_framework_initializer以避免循环依赖"""
+    from crawlo.core.framework_initializer import get_framework_initializer as _get_framework_initializer
+    return _get_framework_initializer()
+def initialize_framework(custom_settings=None):
+    """延迟导入initialize_framework以避免循环依赖"""
+    from crawlo.core.framework_initializer import initialize_framework as _initialize_framework
+    return _initialize_framework(custom_settings)
+# 向后兼容的别名
+def get_bootstrap_manager():
+    """向后兼容的别名"""
+    return get_framework_initializer()
 # 版本号：优先从元数据读取
 try:
     from importlib.metadata import version
@@ -60,5 +82,7 @@ __all__ = [
     'from_timestamp_with_tz',
     'cleaners',
     'tools',
+    'get_framework_initializer',
+    'get_bootstrap_manager',
     '__version__',
 ]

crawlo-1.3.4/crawlo/__version__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = '1.3.4'

{crawlo-1.3.2 → crawlo-1.3.4}/crawlo/commands/run.py RENAMED Viewed

@@ -21,10 +21,23 @@ from rich.text import Text
 from crawlo.commands.stats import record_stats
 from crawlo.crawler import CrawlerProcess
 from crawlo.project import get_settings, _find_project_root
-# 使用自定义日志系统
+# 使用新的统一初始化系统
+from crawlo.initialization import initialize_framework
+from crawlo.core import get_framework_initializer
 from crawlo.utils.log import get_logger
-logger = get_logger(__name__)
+# 延迟获取logger，确保在日志系统配置之后获取
+_logger = None
+def logger():
+    """延迟获取logger实例，确保在日志系统配置之后获取"""
+    global _logger
+    if _logger is None:
+        # 使用改进后的日志系统，可以安全地在任何时候创建
+        _logger = get_logger(__name__)
+    return _logger
 console = Console()
@@ -35,15 +48,15 @@ def check_redis_connection(settings):
         # 检查是否为分布式模式
         run_mode = settings.get('RUN_MODE', 'standalone')
         queue_type = settings.get('QUEUE_TYPE', 'memory')
         if run_mode == 'distributed' or queue_type == 'redis':
             import redis.asyncio as redis
             redis_url = settings.get('REDIS_URL', 'redis://127.0.0.1:6379/0')
             redis_host = settings.get('REDIS_HOST', '127.0.0.1')
             redis_port = settings.get('REDIS_PORT', 6379)
             console.print(f"检查 Redis 连接: {redis_host}:{redis_port}")
             # 创建Redis连接进行测试
             async def _test_redis():
                 try:
@@ -54,11 +67,11 @@ def check_redis_connection(settings):
                 except Exception as e:
                     console.print(f"Redis 连接失败: {e}")
                     return False
             # 运行异步测试
             if not asyncio.run(_test_redis()):
                 raise ConnectionError(f"无法连接到 Redis 服务器 {redis_host}:{redis_port}")
             console.print("Redis 连接正常")
             return True
         else:
@@ -78,11 +91,15 @@ def main(args):
     用法:
         crawlo run <spider_name>|all [--json] [--no-stats]
     """
+    # 确保框架已初始化
+    init_manager = get_framework_initializer()
     # 添加调试信息
-    logger.debug("DEBUG: 进入main函数")
+    logger().debug("DEBUG: 进入main函数")
     if len(args) < 1:
-        console.print("[bold red]用法:[/bold red] [blue]crawlo run[/blue] <爬虫名称>|all [bold yellow][--json] [--no-stats][/bold yellow]")
+        console.print(
+            "[bold red]用法:[/bold red] [blue]crawlo run[/blue] <爬虫名称>|all [bold yellow][--json] [--no-stats][/bold yellow]")
         console.print("示例:")
         console.print("   [blue]crawlo run baidu[/blue]")
         console.print("   [blue]crawlo run all[/blue]")
@@ -153,9 +170,9 @@ def main(args):
                 console.print(Panel(msg, title="导入错误", border_style="red"))
                 return 1
-        # 4. 加载 settings 和爬虫模块
-        settings = get_settings()
+        # 4. 启动框架并加载 settings
+        settings = initialize_framework()
         # 检查Redis连接（如果是分布式模式）
         if not check_redis_connection(settings):
             if show_json:
@@ -163,9 +180,22 @@ def main(args):
                 return 1
             else:
                 return 1
-        spider_modules = [f"{project_package}.spiders"]
+        # 从配置中获取SPIDER_MODULES
+        spider_modules = settings.get('SPIDER_MODULES', [f"{project_package}.spiders"])
+        logger().debug(f"SPIDER_MODULES from settings: {spider_modules}")
         process = CrawlerProcess(settings=settings, spider_modules=spider_modules)
+        # 不再需要手动导入爬虫模块，框架内部会自动处理
+        # 检查注册表中的爬虫
+        from crawlo.spider import get_global_spider_registry
+        registry = get_global_spider_registry()
+        spider_names = list(registry.keys())
+        logger().debug(f"Registered spiders after import: {spider_names}")
+        # 调试信息
+        logger().debug(f"SPIDER_MODULES: {spider_modules}")
+        logger().debug(f"Available spiders: {process.get_spider_names()}")
         # === 情况1：运行所有爬虫 ===
         if spider_arg.lower() == "all":
@@ -193,19 +223,14 @@ def main(args):
             # 显示即将运行的爬虫列表
             # 根据用户要求，不再显示详细的爬虫列表信息
-            # 注册 stats 记录（除非 --no-stats）
-            if not no_stats:
-                for crawler in process.crawlers:
-                    crawler.signals.connect(record_stats, signal="spider_closed")
             # 并行运行所有爬虫
             with Progress(
-                SpinnerColumn(),
-                TextColumn("[progress.description]{task.description}"),
-                transient=True,
+                    SpinnerColumn(),
+                    TextColumn("[progress.description]{task.description}"),
+                    transient=True,
             ) as progress:
                 task = progress.add_task("正在运行所有爬虫...", total=None)
-                asyncio.run(process.crawl(spider_names))
+                asyncio.run(process.crawl_multiple(spider_names))
             if show_json:
                 console.print_json(data={"success": True, "spiders": spider_names})
@@ -267,15 +292,16 @@ def main(args):
         #     console.print()
         # 注册 stats 记录
-        if not no_stats:
-            for crawler in process.crawlers:
-                crawler.signals.connect(record_stats, signal="spider_closed")
+        # 注意：CrawlerProcess没有crawlers属性，我们需要在运行时注册
+        # if not no_stats:
+        #     for crawler in process.crawlers:
+        #         crawler.signals.connect(record_stats, signal="spider_closed")
         # 运行爬虫
         with Progress(
-            SpinnerColumn(),
-            TextColumn("[progress.description]{task.description}"),
-            transient=True,
+                SpinnerColumn(),
+                TextColumn("[progress.description]{task.description}"),
+                transient=True,
         ) as progress:
             task = progress.add_task(f"正在运行 {spider_name}...", total=None)
             asyncio.run(process.crawl(spider_name))
@@ -298,7 +324,7 @@ def main(args):
             console.print(f"[bold yellow]{msg}[/bold yellow]")
         return 1
     except Exception as e:
-        logger.exception("Exception during 'crawlo run'")
+        logger().exception("Exception during 'crawlo run'")
         msg = f"意外错误: {e}"
         if show_json:
             console.print_json(data={"success": False, "error": msg})
@@ -312,4 +338,4 @@ if __name__ == "__main__":
     支持直接运行：
         python -m crawlo.commands.run spider_name
     """
-    sys.exit(main(sys.argv[1:]))
+    sys.exit(main(sys.argv[1:]))

crawlo 1.3.2__tar.gz → 1.3.4__tar.gz

Potentially problematic release.

crawlo 1.3.2tar.gz → 1.3.4tar.gz