PyPI - crawlo - Versions diffs - 1.4.6__py3-none-any.whl → 1.4.8__py3-none-any.whl - Mend

crawlo 1.4.6py3-none-any.whl → 1.4.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of crawlo might be problematic. Click here for more details.

Files changed (162) hide show

crawlo/__init__.py +2 -1
crawlo/__version__.py +1 -1
crawlo/cli.py +2 -2
crawlo/commands/check.py +1 -1
crawlo/commands/help.py +5 -3
crawlo/commands/list.py +1 -1
crawlo/commands/run.py +49 -11
crawlo/commands/stats.py +1 -1
crawlo/config.py +12 -4
crawlo/config_validator.py +1 -1
crawlo/core/engine.py +20 -7
crawlo/core/processor.py +1 -1
crawlo/core/scheduler.py +4 -5
crawlo/crawler.py +51 -10
crawlo/downloader/__init__.py +7 -3
crawlo/downloader/aiohttp_downloader.py +18 -18
crawlo/downloader/cffi_downloader.py +5 -2
crawlo/downloader/httpx_downloader.py +9 -3
crawlo/downloader/hybrid_downloader.py +2 -2
crawlo/downloader/playwright_downloader.py +38 -15
crawlo/downloader/selenium_downloader.py +16 -2
crawlo/event.py +42 -8
crawlo/exceptions.py +157 -24
crawlo/extension/__init__.py +10 -9
crawlo/extension/health_check.py +7 -7
crawlo/extension/log_interval.py +6 -6
crawlo/extension/log_stats.py +2 -2
crawlo/extension/logging_extension.py +4 -12
crawlo/extension/memory_monitor.py +5 -5
crawlo/extension/performance_profiler.py +5 -5
crawlo/extension/request_recorder.py +6 -6
crawlo/factories/base.py +1 -1
crawlo/factories/crawler.py +61 -60
crawlo/factories/utils.py +135 -0
crawlo/filters/__init__.py +19 -2
crawlo/filters/aioredis_filter.py +133 -49
crawlo/filters/memory_filter.py +6 -21
crawlo/framework.py +22 -8
crawlo/initialization/built_in.py +24 -67
crawlo/initialization/core.py +65 -19
crawlo/initialization/phases.py +83 -2
crawlo/initialization/registry.py +5 -7
crawlo/initialization/utils.py +49 -0
crawlo/logging/__init__.py +6 -10
crawlo/logging/config.py +106 -22
crawlo/logging/factory.py +12 -8
crawlo/logging/manager.py +19 -27
crawlo/middleware/__init__.py +72 -9
crawlo/middleware/default_header.py +2 -2
crawlo/middleware/download_delay.py +2 -2
crawlo/middleware/middleware_manager.py +6 -6
crawlo/middleware/offsite.py +2 -2
crawlo/middleware/proxy.py +2 -2
crawlo/middleware/request_ignore.py +4 -4
crawlo/middleware/response_code.py +2 -2
crawlo/middleware/response_filter.py +2 -2
crawlo/middleware/retry.py +1 -1
crawlo/mode_manager.py +38 -4
crawlo/network/request.py +54 -26
crawlo/network/response.py +69 -135
crawlo/pipelines/__init__.py +40 -9
crawlo/pipelines/base_pipeline.py +452 -0
crawlo/pipelines/bloom_dedup_pipeline.py +4 -5
crawlo/pipelines/console_pipeline.py +2 -2
crawlo/pipelines/csv_pipeline.py +4 -4
crawlo/pipelines/database_dedup_pipeline.py +4 -5
crawlo/pipelines/json_pipeline.py +4 -4
crawlo/pipelines/memory_dedup_pipeline.py +4 -5
crawlo/pipelines/mongo_pipeline.py +23 -14
crawlo/pipelines/mysql_pipeline.py +31 -39
crawlo/pipelines/pipeline_manager.py +8 -8
crawlo/pipelines/redis_dedup_pipeline.py +13 -14
crawlo/project.py +1 -1
crawlo/queue/__init__.py +10 -0
crawlo/queue/queue_manager.py +79 -13
crawlo/queue/redis_priority_queue.py +196 -47
crawlo/settings/default_settings.py +16 -6
crawlo/spider/__init__.py +6 -5
crawlo/stats_collector.py +2 -2
crawlo/task_manager.py +1 -1
crawlo/templates/crawlo.cfg.tmpl +3 -3
crawlo/templates/project/__init__.py.tmpl +1 -3
crawlo/templates/project/items.py.tmpl +2 -6
crawlo/templates/project/middlewares.py.tmpl +1 -1
crawlo/templates/project/pipelines.py.tmpl +1 -2
crawlo/templates/project/settings.py.tmpl +12 -10
crawlo/templates/project/settings_distributed.py.tmpl +14 -13
crawlo/templates/project/settings_gentle.py.tmpl +21 -23
crawlo/templates/project/settings_high_performance.py.tmpl +21 -23
crawlo/templates/project/settings_minimal.py.tmpl +10 -8
crawlo/templates/project/settings_simple.py.tmpl +21 -23
crawlo/templates/run.py.tmpl +1 -1
crawlo/templates/spider/spider.py.tmpl +4 -12
crawlo/templates/spiders_init.py.tmpl +3 -8
crawlo/tools/__init__.py +0 -103
crawlo/tools/scenario_adapter.py +1 -1
crawlo/utils/__init__.py +25 -1
crawlo/utils/batch_processor.py +23 -6
crawlo/utils/config_manager.py +442 -0
crawlo/utils/controlled_spider_mixin.py +1 -1
crawlo/utils/db_helper.py +1 -1
crawlo/utils/encoding_helper.py +190 -0
crawlo/utils/error_handler.py +2 -2
crawlo/utils/large_scale_helper.py +1 -1
crawlo/utils/leak_detector.py +335 -0
crawlo/utils/mongo_connection_pool.py +157 -0
crawlo/utils/mysql_connection_pool.py +197 -0
crawlo/utils/performance_monitor.py +1 -1
crawlo/utils/redis_checker.py +91 -0
crawlo/utils/redis_connection_pool.py +260 -70
crawlo/utils/redis_key_validator.py +1 -1
crawlo/utils/request.py +24 -2
crawlo/utils/request_serializer.py +1 -1
crawlo/utils/resource_manager.py +337 -0
crawlo/utils/response_helper.py +113 -0
crawlo/utils/selector_helper.py +3 -2
crawlo/utils/singleton.py +70 -0
crawlo/utils/spider_loader.py +1 -1
crawlo/utils/text_helper.py +1 -1
crawlo-1.4.8.dist-info/METADATA +831 -0
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/RECORD +131 -145
tests/advanced_tools_example.py +10 -68
tests/distributed_dedup_test.py +467 -0
tests/monitor_redis_dedup.sh +72 -0
tests/ofweek_scrapy/ofweek_scrapy/spiders/__init__.py +4 -4
tests/simple_cli_test.py +55 -0
tests/test_cli_arguments.py +119 -0
tests/test_dedup_fix.py +10 -10
crawlo/logging/async_handler.py +0 -181
crawlo/logging/monitor.py +0 -153
crawlo/logging/sampler.py +0 -167
crawlo/tools/authenticated_proxy.py +0 -241
crawlo/tools/data_formatter.py +0 -226
crawlo/tools/data_validator.py +0 -181
crawlo/tools/encoding_converter.py +0 -127
crawlo/tools/network_diagnostic.py +0 -365
crawlo/tools/request_tools.py +0 -83
crawlo/tools/retry_mechanism.py +0 -224
crawlo/utils/env_config.py +0 -143
crawlo/utils/large_scale_config.py +0 -287
crawlo/utils/log.py +0 -80
crawlo/utils/system.py +0 -11
crawlo/utils/tools.py +0 -5
crawlo/utils/url.py +0 -40
crawlo-1.4.6.dist-info/METADATA +0 -329
tests/env_config_example.py +0 -134
tests/ofweek_scrapy/ofweek_scrapy/spiders/ofweek_spider.py +0 -162
tests/test_authenticated_proxy.py +0 -142
tests/test_comprehensive.py +0 -147
tests/test_dynamic_downloaders_proxy.py +0 -125
tests/test_dynamic_proxy.py +0 -93
tests/test_dynamic_proxy_config.py +0 -147
tests/test_dynamic_proxy_real.py +0 -110
tests/test_env_config.py +0 -122
tests/test_framework_env_usage.py +0 -104
tests/test_large_scale_config.py +0 -113
tests/test_proxy_api.py +0 -265
tests/test_real_scenario_proxy.py +0 -196
tests/tools_example.py +0 -261
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/WHEEL +0 -0
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/entry_points.txt +0 -0
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/top_level.txt +0 -0

crawlo/__init__.py CHANGED Viewed

@@ -7,7 +7,7 @@ Crawlo - 一个异步爬虫框架
 # 为了向后兼容，从tools中导入cleaners相关的功能
 import crawlo.tools as cleaners
 from crawlo import tools
-from crawlo.crawler import CrawlerProcess
+from crawlo.crawler import Crawler, CrawlerProcess
 from crawlo.downloader import DownloaderBase
 from crawlo.items import Item, Field
 from crawlo.middleware import BaseMiddleware
@@ -82,6 +82,7 @@ __all__ = [
     'from_timestamp_with_tz',
     'cleaners',
     'tools',
+    'Crawler',
     'CrawlerProcess',
     'get_framework_initializer',
     'get_bootstrap_manager',

crawlo/__version__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = '1.4.6'
1	+ __version__ = '1.4.8'

crawlo/cli.py CHANGED Viewed

@@ -4,12 +4,12 @@
 import sys
 import argparse
 from crawlo.commands import get_commands
-from crawlo.utils.env_config import get_version
+from crawlo.utils.config_manager import EnvConfigManager
 def main():
     # 获取框架版本号
-    VERSION = get_version()
+    VERSION = EnvConfigManager.get_version()
     # 获取所有可用命令
     commands = get_commands()

crawlo/commands/check.py CHANGED Viewed

@@ -24,7 +24,7 @@ from watchdog.observers import Observer
 from watchdog.events import FileSystemEventHandler
 from crawlo.crawler import CrawlerProcess
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 logger = get_logger(__name__)

crawlo/commands/help.py CHANGED Viewed

@@ -11,10 +11,10 @@ from rich.table import Table
 from rich.panel import Panel
 from rich.text import Text
 from rich import box
-from crawlo.utils.env_config import get_version
+from crawlo.utils.config_manager import EnvConfigManager
 # 获取框架版本号
-VERSION = get_version()
+VERSION = EnvConfigManager.get_version()
 console = Console()
@@ -85,11 +85,13 @@ def show_help():
     # run 命令
     console.print("[bold cyan]run[/bold cyan] - 运行爬虫")
-    console.print("  用法: crawlo run <spider_name>|all [--json] [--no-stats]")
+    console.print("  用法: crawlo run <spider_name>|all [--json] [--no-stats] [--log-level LEVEL] [--config CONFIG] [--concurrency NUM]")
     console.print("  示例:")
     console.print("    crawlo run myspider")
     console.print("    crawlo run all")
     console.print("    crawlo run all --json --no-stats")
+    console.print("    crawlo run myspider --log-level DEBUG")
+    console.print("    crawlo run myspider --concurrency 32")
     console.print()

crawlo/commands/list.py CHANGED Viewed

@@ -16,7 +16,7 @@ from rich.text import Text
 from rich import box
 from crawlo.crawler import CrawlerProcess
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 from .utils import validate_project_environment, show_error_panel
 logger = get_logger(__name__)

crawlo/commands/run.py CHANGED Viewed

@@ -24,7 +24,7 @@ from crawlo.project import get_settings, _find_project_root
 # 使用新的统一初始化系统
 from crawlo.initialization import initialize_framework
 from crawlo.core import get_framework_initializer
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 # 延迟获取logger，确保在日志系统配置之后获取
 _logger = None
@@ -89,7 +89,7 @@ def main(args):
     """
     主函数：运行指定爬虫
     用法:
-        crawlo run <spider_name>|all [--json] [--no-stats]
+        crawlo run <spider_name>|all [--json] [--no-stats] [--log-level LEVEL] [--config CONFIG] [--concurrency NUM]
     """
     # 确保框架已初始化
     init_manager = get_framework_initializer()
@@ -99,7 +99,7 @@ def main(args):
     if len(args) < 1:
         console.print(
-            "[bold red]用法:[/bold red] [blue]crawlo run[/blue] <爬虫名称>|all [bold yellow][--json] [--no-stats][/bold yellow]")
+            "[bold red]用法:[/bold red] [blue]crawlo run[/blue] <爬虫名称>|all [bold yellow][--json] [--no-stats] [--log-level LEVEL] [--config CONFIG] [--concurrency NUM][/bold yellow]")
         console.print("示例:")
         console.print("   [blue]crawlo run baidu[/blue]")
         console.print("   [blue]crawlo run all[/blue]")
@@ -110,6 +110,36 @@ def main(args):
     spider_arg = args[0]
     show_json = "--json" in args
     no_stats = "--no-stats" in args
+    # 解析日志级别参数
+    log_level = None
+    if "--log-level" in args:
+        try:
+            log_level_index = args.index("--log-level")
+            if log_level_index + 1 < len(args):
+                log_level = args[log_level_index + 1]
+        except (ValueError, IndexError):
+            pass
+    # 解析配置文件参数
+    config_file = None
+    if "--config" in args:
+        try:
+            config_index = args.index("--config")
+            if config_index + 1 < len(args):
+                config_file = args[config_index + 1]
+        except (ValueError, IndexError):
+            pass
+    # 解析并发数参数
+    concurrency = None
+    if "--concurrency" in args:
+        try:
+            concurrency_index = args.index("--concurrency")
+            if concurrency_index + 1 < len(args):
+                concurrency = int(args[concurrency_index + 1])
+        except (ValueError, IndexError, TypeError):
+            pass
     try:
         # 1. 查找项目根目录
@@ -171,7 +201,14 @@ def main(args):
                 return 1
         # 4. 启动框架并加载 settings
-        settings = initialize_framework()
+        # 如果指定了日志级别，则添加到自定义设置中
+        custom_settings = {}
+        if log_level:
+            custom_settings['LOG_LEVEL'] = log_level
+        if concurrency:
+            custom_settings['CONCURRENCY'] = concurrency
+        settings = initialize_framework(custom_settings if custom_settings else None)
         # 检查Redis连接（如果是分布式模式）
         if not check_redis_connection(settings):
@@ -183,7 +220,7 @@ def main(args):
         # 从配置中获取SPIDER_MODULES
         spider_modules = settings.get('SPIDER_MODULES', [f"{project_package}.spiders"])
-        logger().debug(f"SPIDER_MODULES from settings: {spider_modules}")
+        # 合并重复的调试信息
         process = CrawlerProcess(settings=settings, spider_modules=spider_modules)
         # 不再需要手动导入爬虫模块，框架内部会自动处理
@@ -191,11 +228,11 @@ def main(args):
         from crawlo.spider import get_global_spider_registry
         registry = get_global_spider_registry()
         spider_names = list(registry.keys())
-        logger().debug(f"Registered spiders after import: {spider_names}")
-        # 调试信息
-        logger().debug(f"SPIDER_MODULES: {spider_modules}")
-        logger().debug(f"Available spiders: {process.get_spider_names()}")
+        # 减少重复的调试日志输出
+        # logger().debug(f"SPIDER_MODULES from settings: {spider_modules}")
+        # logger().debug(f"Registered spiders after import: {spider_names}")
+        # logger().debug(f"SPIDER_MODULES: {spider_modules}")
+        # logger().debug(f"Available spiders: {process.get_spider_names()}")
         # === 情况1：运行所有爬虫 ===
         if spider_arg.lower() == "all":
@@ -260,7 +297,8 @@ def main(args):
                     panel_content.append("\n可用爬虫:\n")
                     for name in sorted(available):
                         cls = process.get_spider_class(name)
-                        panel_content.append(f"  • [cyan]{name}[/cyan] ([green]{cls.__name__}[/green])\n")
+                        class_name = cls.__name__ if cls else 'Unknown'
+                        panel_content.append(f"  • [cyan]{name}[/cyan] ([green]{class_name}[/green])\n")
                 else:
                     panel_content.append("\n未找到爬虫。请检查爬虫模块。")

crawlo/commands/stats.py CHANGED Viewed

@@ -16,7 +16,7 @@ from rich.panel import Panel
 from rich.text import Text
 from rich import box
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 logger = get_logger(__name__)

crawlo/config.py CHANGED Viewed

@@ -23,7 +23,7 @@ from typing import Dict, Any, Optional
 from crawlo.config_validator import validate_config
 from crawlo.mode_manager import standalone_mode, distributed_mode, auto_mode, from_env
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 class CrawloConfig:
@@ -51,13 +51,21 @@ class CrawloConfig:
         return self.settings.get(key, default)
     def set(self, key: str, value: Any) -> 'CrawloConfig':
-        """设置配置项（链式调用）"""
+        """设置配置项（链式调用）
+        注意：设置后会自动验证配置合法性
+        """
         self.settings[key] = value
+        self._validate_settings()  # 自动验证
         return self
     def update(self, settings: Dict[str, Any]) -> 'CrawloConfig':
-        """更新配置（链式调用）"""
+        """更新配置（链式调用）
+        注意：更新后会自动验证配置合法性
+        """
         self.settings.update(settings)
+        self._validate_settings()  # 自动验证
         return self
     def set_concurrency(self, concurrency: int) -> 'CrawloConfig':
@@ -95,7 +103,7 @@ class CrawloConfig:
             'auto': '自动检测模式'
         }
-        queue_type = self.settings.get('QUEUE_TYPE', 'memory')
+        queue_type = self.settings.get('QUEUE_TYPE', 'auto')
         filter_class = self.settings.get('FILTER_CLASS', '').split('.')[-1]
         concurrency = self.settings.get('CONCURRENCY', 8)

crawlo/config_validator.py CHANGED Viewed

@@ -7,7 +7,7 @@
 """
 from typing import Dict, Any, List, Tuple
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 class ConfigValidator:

crawlo/core/engine.py CHANGED Viewed

@@ -9,13 +9,13 @@ from crawlo import Request, Item
 from crawlo.core.processor import Processor
 from crawlo.core.scheduler import Scheduler
 from crawlo.downloader import DownloaderBase
-from crawlo.event import spider_opened, spider_error, request_scheduled
+from crawlo.event import CrawlerEvent
 from crawlo.exceptions import OutputError
 from crawlo.utils.misc import load_object
 from crawlo.spider import Spider
 from crawlo.task_manager import TaskManager
 from crawlo.utils.func_tools import transform
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 class Engine(object):
@@ -94,6 +94,17 @@ class Engine(object):
             else:
                 # DownloaderBase.open() 是同步方法，直接调用而不是await
                 self.downloader.open()
+        # 注册下载器到资源管理器
+        if hasattr(self.crawler, '_resource_manager') and self.downloader:
+            from crawlo.utils.resource_manager import ResourceType
+            self.crawler._resource_manager.register(
+                self.downloader,
+                lambda d: d.close() if hasattr(d, 'close') else None,
+                ResourceType.DOWNLOADER,
+                name=f"downloader.{downloader_cls.__name__}"
+            )
+            self.logger.debug(f"Downloader registered to resource manager: {downloader_cls.__name__}")
         self.processor = Processor(self.crawler)
         if hasattr(self.processor, 'open'):
@@ -188,11 +199,13 @@ class Engine(object):
         while self.running:
             try:
                 start_request = next(self.start_requests)
-                self.logger.debug(f"获取到请求: {getattr(start_request, 'url', 'Unknown URL')}")
+                # 将过于频繁的debug日志合并，减少输出
+                # self.logger.debug(f"获取到请求: {getattr(start_request, 'url', 'Unknown URL')}")
                 # 请求入队
                 await self.enqueue_request(start_request)
                 processed_count += 1
-                self.logger.debug(f"已处理请求数量: {processed_count}")
+                # 减少过于频繁的日志输出
+                # self.logger.debug(f"已处理请求数量: {processed_count}")
             except StopIteration:
                 self.logger.debug("所有起始请求处理完成")
                 self.start_requests = None
@@ -306,7 +319,7 @@ class Engine(object):
             wait_time = min(wait_time * 1.1, max_wait)
     async def _open_spider(self):
-        asyncio.create_task(self.crawler.subscriber.notify(spider_opened))
+        asyncio.create_task(self.crawler.subscriber.notify(CrawlerEvent.SPIDER_OPENED))
         # 直接调用crawl方法而不是创建任务，确保等待完成
         await self.crawl()
@@ -364,7 +377,7 @@ class Engine(object):
     async def _schedule_request(self, request):
         # TODO 去重
         if await self.scheduler.enqueue_request(request):
-            asyncio.create_task(self.crawler.subscriber.notify(request_scheduled, request, self.crawler.spider))
+            asyncio.create_task(self.crawler.subscriber.notify(CrawlerEvent.REQUEST_SCHEDULED, request, self.crawler.spider))
     async def _get_next_request(self):
         return await self.scheduler.next_request()
@@ -375,7 +388,7 @@ class Engine(object):
                 await self.processor.enqueue(spider_output)
             elif isinstance(spider_output, Exception):
                 asyncio.create_task(
-                    self.crawler.subscriber.notify(spider_error, spider_output, self.spider)
+                    self.crawler.subscriber.notify(CrawlerEvent.SPIDER_ERROR, spider_output, self.spider)
                 )
                 raise spider_output
             else:

crawlo/core/processor.py CHANGED Viewed

@@ -4,7 +4,7 @@ from asyncio import Queue, create_task
 from typing import Union, Optional
 from crawlo import Request, Item
-from crawlo.event import item_discard
+from crawlo.event import CrawlerEvent
 from crawlo.exceptions import ItemDiscard
 from crawlo.pipelines.pipeline_manager import PipelineManager

crawlo/core/scheduler.py CHANGED Viewed

@@ -3,7 +3,7 @@
 import traceback
 from typing import Optional, Callable
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 from crawlo.utils.request import set_request
 from crawlo.utils.error_handler import ErrorHandler
 from crawlo.utils.misc import load_object
@@ -13,13 +13,13 @@ from crawlo.queue.queue_manager import QueueManager, QueueConfig, QueueType
 class Scheduler:
-    def __init__(self, crawler, dupe_filter, stats, log_level, priority):
+    def __init__(self, crawler, dupe_filter, stats, priority):
         self.crawler = crawler
         self.queue_manager: Optional[QueueManager] = None
         self.request_serializer = RequestSerializer()
-        self.logger = get_logger(name=self.__class__.__name__, level=log_level)
-        self.error_handler = ErrorHandler(self.__class__.__name__, log_level)
+        self.logger = get_logger(self.__class__.__name__)
+        self.error_handler = ErrorHandler(self.__class__.__name__)
         self.stats = stats
         self.dupe_filter = dupe_filter
         self.priority = priority
@@ -31,7 +31,6 @@ class Scheduler:
             crawler=crawler,
             dupe_filter=filter_cls.create_instance(crawler),
             stats=crawler.stats,
-            log_level=crawler.settings.get('LOG_LEVEL'),
             priority=crawler.settings.get('DEPTH_PRIORITY')
         )
         return o

crawlo/crawler.py CHANGED Viewed

@@ -1,14 +1,19 @@
 #!/usr/bin/python
 # -*- coding: UTF-8 -*-
 """
-重构后的Crawler系统
-==================
+Crawler系统
+==========
+核心组件：
+- Crawler: 爬虫核心控制器，负责单个爬虫的生命周期管理
+- CrawlerProcess: 爬虫进程管理器，支持单个/多个爬虫运行
 设计原则：
 1. 单一职责 - 每个类只负责一个明确的功能
 2. 依赖注入 - 通过工厂创建组件，便于测试
 3. 状态管理 - 清晰的状态转换和生命周期
 4. 错误处理 - 优雅的错误处理和恢复机制
+5. 资源管理 - 统一的资源注册和清理机制
 """
 import asyncio
@@ -21,6 +26,7 @@ from typing import Optional, Type, Dict, Any, List
 from crawlo.logging import get_logger
 from crawlo.factories import get_component_registry
 from crawlo.initialization import initialize_framework, is_framework_ready
+from crawlo.utils.resource_manager import ResourceManager, ResourceType
 class CrawlerState(Enum):
@@ -55,15 +61,16 @@ class CrawlerMetrics:
         return (self.success_count / total * 100) if total > 0 else 0.0
-class ModernCrawler:
+class Crawler:
     """
-    现代化的Crawler实现
+    爬虫核心控制器
     特点：
     1. 清晰的状态管理
     2. 依赖注入
     3. 组件化架构
     4. 完善的错误处理
+    5. 统一的资源管理
     """
     def __init__(self, spider_cls: Type, settings=None):
@@ -82,6 +89,9 @@ class ModernCrawler:
         # 指标
         self._metrics = CrawlerMetrics()
+        # 资源管理器
+        self._resource_manager = ResourceManager(name=f"crawler.{spider_cls.__name__ if spider_cls else 'unknown'}")
         # 日志
         self._logger = get_logger(f'crawler.{spider_cls.__name__ if spider_cls else "unknown"}')
@@ -209,6 +219,14 @@ class ModernCrawler:
             # 创建Engine（需要crawler参数）
             self._engine = registry.create('engine', crawler=self)
+            # 注册Engine到资源管理器
+            if self._engine and hasattr(self._engine, 'close'):
+                self._resource_manager.register(
+                    self._engine,
+                    lambda e: e.close() if hasattr(e, 'close') else None,
+                    ResourceType.OTHER,
+                    name="engine"
+                )
             # 创建Stats（需要crawler参数）
             self._stats = registry.create('stats', crawler=self)
@@ -291,7 +309,15 @@ class ModernCrawler:
                 self._state = CrawlerState.CLOSING
         try:
-            # 关闭各个组件
+            # 使用资源管理器统一清理
+            self._logger.debug("开始清理Crawler资源...")
+            cleanup_result = await self._resource_manager.cleanup_all()
+            self._logger.debug(
+                f"资源清理完成: {cleanup_result['success']}成功, "
+                f"{cleanup_result['errors']}失败, 耗时{cleanup_result['duration']:.2f}s"
+            )
+            # 关闭各个组件（继续兼容旧逻辑）
             if self._engine and hasattr(self._engine, 'close'):
                 try:
                     await self._engine.close()
@@ -318,7 +344,9 @@ class ModernCrawler:
             # 触发spider_closed事件，通知所有订阅者（包括扩展）
             # 传递reason参数，这里使用默认的'finished'作为reason
-            await self.subscriber.notify("spider_closed", reason='finished')
+            if self.subscriber:
+                from crawlo.event import CrawlerEvent
+                await self.subscriber.notify(CrawlerEvent.SPIDER_CLOSED, reason='finished')
             if self._stats and hasattr(self._stats, 'close'):
                 try:
@@ -348,7 +376,7 @@ class CrawlerProcess:
         # 初始化框架配置
         self._settings = settings or initialize_framework()
         self._max_concurrency = max_concurrency
-        self._crawlers: List[ModernCrawler] = []
+        self._crawlers: List[Crawler] = []
         self._semaphore = asyncio.Semaphore(max_concurrency)
         self._logger = get_logger('crawler.process')
@@ -497,7 +525,7 @@ class CrawlerProcess:
         logger.info(f"Starting spider: {spider_cls.name}")
         merged_settings = self._merge_settings(settings)
-        crawler = ModernCrawler(spider_cls, merged_settings)
+        crawler = Crawler(spider_cls, merged_settings)
         async with self._semaphore:
             await crawler.crawl()
@@ -526,7 +554,7 @@ class CrawlerProcess:
             tasks = []
             for spider_cls in spider_classes:
                 merged_settings = self._merge_settings(settings)
-                crawler = ModernCrawler(spider_cls, merged_settings)
+                crawler = Crawler(spider_cls, merged_settings)
                 self._crawlers.append(crawler)
                 task = asyncio.create_task(self._run_with_semaphore(crawler))
@@ -543,12 +571,25 @@ class CrawlerProcess:
             return results
         finally:
+            # 清理所有crawler，防止资源累积
+            self._logger.debug(f"Cleaning up {len(self._crawlers)} crawler(s)...")
+            for crawler in self._crawlers:
+                try:
+                    # 确保每个crawler都被清理
+                    if hasattr(crawler, '_resource_manager'):
+                        await crawler._resource_manager.cleanup_all()
+                except Exception as e:
+                    self._logger.warning(f"Failed to cleanup crawler: {e}")
+            # 清空crawlers列表，释放引用
+            self._crawlers.clear()
             self._end_time = time.time()
             if self._start_time:
                 duration = self._end_time - self._start_time
                 self._logger.info(f"Total execution time: {duration:.2f}s")
-    async def _run_with_semaphore(self, crawler: ModernCrawler):
+    async def _run_with_semaphore(self, crawler: Crawler):
         """在信号量控制下运行爬虫"""
         async with self._semaphore:
             await crawler.crawl()

crawlo/downloader/__init__.py CHANGED Viewed

@@ -18,7 +18,7 @@ from abc import abstractmethod, ABCMeta
 from typing import Final, Set, Optional, TYPE_CHECKING
 from contextlib import asynccontextmanager
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 from crawlo.middleware.middleware_manager import MiddlewareManager
 if TYPE_CHECKING:
@@ -68,12 +68,16 @@ class ActivateRequestManager:
     def get_stats(self) -> dict:
         """获取请求统计信息"""
+        completed = self._completed_requests + self._failed_requests
         return {
             'active_requests': len(self._active),
             'total_requests': self._total_requests,
             'completed_requests': self._completed_requests,
             'failed_requests': self._failed_requests,
-            'success_rate': self._completed_requests / max(1, self._total_requests - len(self._active))
+            'success_rate': (
+                self._completed_requests / completed * 100
+                if completed > 0 else 100.0  # 无完成请求时返回100%
+            )
         }
     def reset_stats(self):
@@ -104,7 +108,7 @@ class DownloaderBase(metaclass=DownloaderMeta):
         self.crawler = crawler
         self._active = ActivateRequestManager()
         self.middleware: Optional[MiddlewareManager] = None
-        self.logger = get_logger(self.__class__.__name__, crawler.settings.get("LOG_LEVEL"))
+        self.logger = get_logger(self.__class__.__name__)
         self._closed = False
         self._stats_enabled = crawler.settings.get_bool("DOWNLOADER_STATS", True)

crawlo/downloader/aiohttp_downloader.py CHANGED Viewed

@@ -1,5 +1,6 @@
 #!/usr/bin/python
 # -*- coding: UTF-8 -*-
+import asyncio
 from yarl import URL
 from typing import Optional
 from aiohttp import (
@@ -13,7 +14,7 @@ from aiohttp import (
 )
 from crawlo.network.response import Response
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 from crawlo.downloader import DownloaderBase
@@ -31,7 +32,7 @@ class AioHttpDownloader(DownloaderBase):
         super().__init__(crawler)
         self.session: Optional[ClientSession] = None
         self.max_download_size: int = 0
-        self.logger = get_logger(self.__class__.__name__, crawler.settings.get("LOG_LEVEL"))
+        self.logger = get_logger(self.__class__.__name__)
     def open(self):
         super().open()
@@ -80,9 +81,6 @@ class AioHttpDownloader(DownloaderBase):
         # 输出下载器配置摘要
         spider_name = getattr(self.crawler.spider, 'name', 'Unknown')
         concurrency = self.crawler.settings.get('CONCURRENCY', 4)
-        # self.logger.debug(f"下载器初始化完成 [爬虫: {spider_name}, 类型: {self.__class__.__name__}, 并发数: {concurrency}]")  # 注释掉重复的日志
-        # self.logger.debug("AioHttpDownloader initialized.")  # 注释掉重复的日志
     async def download(self, request) -> Optional[Response]:
         """下载请求并返回响应"""
@@ -206,28 +204,30 @@ class AioHttpDownloader(DownloaderBase):
     # --- 请求追踪日志 ---
     async def _on_request_start(self, session, trace_config_ctx, params):
         """请求开始时的回调。"""
-        # proxy = getattr(params, "proxy", None)
-        # proxy_info = f" via {proxy}" if proxy else ""
-        # self.logger.debug(f"Requesting: {params.method} {params.url}{proxy_info}")  # 注释掉过于详细的日志
+        pass
     async def _on_request_end(self, session, trace_config_ctx, params):
         """请求成功结束时的回调。"""
-        # response = params.response
-        # self.logger.debug(
-        #     f"Finished: {params.method} {params.url} with status {response.status}"
-        # )  # 注释掉过于详细的日志
+        pass
     async def _on_request_exception(self, session, trace_config_ctx, params):
         """请求发生异常时的回调。"""
-        # exc = params.exception
-        # self.logger.warning(
-        #     f"Failed: {params.method} {params.url} with exception {type(exc).__name__}: {exc}"
-        # )  # 注释掉过于详细的日志
+        pass
     async def close(self) -> None:
         """关闭会话资源"""
         if self.session and not self.session.closed:
-            # 恢复关键的下载器关闭信息为INFO级别
             self.logger.info("Closing AioHttpDownloader session...")
-            await self.session.close()
+            try:
+                # 关闭 session
+                await self.session.close()
+                # 等待一小段时间确保连接完全关闭
+                # 参考: https://docs.aiohttp.org/en/stable/client_advanced.html#graceful-shutdown
+                await asyncio.sleep(0.25)
+            except Exception as e:
+                self.logger.warning(f"Error during session close: {e}")
+            finally:
+                self.session = None
         self.logger.debug("AioHttpDownloader closed.")

crawlo 1.4.6__py3-none-any.whl → 1.4.8__py3-none-any.whl

Potentially problematic release.

crawlo 1.4.6py3-none-any.whl → 1.4.8py3-none-any.whl