PyPI - crawlo - Versions diffs - 1.4.5__py3-none-any.whl → 1.4.7__py3-none-any.whl - Mend

crawlo 1.4.5py3-none-any.whl → 1.4.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of crawlo might be problematic. Click here for more details.

Files changed (375) hide show

crawlo/__init__.py +90 -89
crawlo/__version__.py +1 -1
crawlo/cli.py +75 -75
crawlo/commands/__init__.py +14 -14
crawlo/commands/check.py +594 -594
crawlo/commands/genspider.py +186 -186
crawlo/commands/help.py +140 -138
crawlo/commands/list.py +155 -155
crawlo/commands/run.py +379 -341
crawlo/commands/startproject.py +460 -460
crawlo/commands/stats.py +187 -187
crawlo/commands/utils.py +196 -196
crawlo/config.py +320 -312
crawlo/config_validator.py +277 -277
crawlo/core/__init__.py +52 -52
crawlo/core/engine.py +451 -438
crawlo/core/processor.py +47 -47
crawlo/core/scheduler.py +290 -291
crawlo/crawler.py +698 -657
crawlo/data/__init__.py +5 -5
crawlo/data/user_agents.py +194 -194
crawlo/downloader/__init__.py +280 -276
crawlo/downloader/aiohttp_downloader.py +233 -233
crawlo/downloader/cffi_downloader.py +250 -245
crawlo/downloader/httpx_downloader.py +265 -259
crawlo/downloader/hybrid_downloader.py +212 -212
crawlo/downloader/playwright_downloader.py +425 -402
crawlo/downloader/selenium_downloader.py +486 -472
crawlo/event.py +45 -11
crawlo/exceptions.py +215 -82
crawlo/extension/__init__.py +65 -64
crawlo/extension/health_check.py +141 -141
crawlo/extension/log_interval.py +94 -94
crawlo/extension/log_stats.py +70 -70
crawlo/extension/logging_extension.py +53 -61
crawlo/extension/memory_monitor.py +104 -104
crawlo/extension/performance_profiler.py +133 -133
crawlo/extension/request_recorder.py +107 -107
crawlo/factories/__init__.py +27 -27
crawlo/factories/base.py +68 -68
crawlo/factories/crawler.py +104 -103
crawlo/factories/registry.py +84 -84
crawlo/factories/utils.py +135 -0
crawlo/filters/__init__.py +170 -153
crawlo/filters/aioredis_filter.py +348 -264
crawlo/filters/memory_filter.py +261 -276
crawlo/framework.py +306 -292
crawlo/initialization/__init__.py +44 -44
crawlo/initialization/built_in.py +391 -434
crawlo/initialization/context.py +141 -141
crawlo/initialization/core.py +240 -194
crawlo/initialization/phases.py +230 -149
crawlo/initialization/registry.py +143 -145
crawlo/initialization/utils.py +49 -0
crawlo/interfaces.py +23 -23
crawlo/items/__init__.py +23 -23
crawlo/items/base.py +23 -23
crawlo/items/fields.py +52 -52
crawlo/items/items.py +104 -104
crawlo/logging/__init__.py +42 -46
crawlo/logging/config.py +277 -197
crawlo/logging/factory.py +175 -171
crawlo/logging/manager.py +104 -112
crawlo/middleware/__init__.py +87 -24
crawlo/middleware/default_header.py +132 -132
crawlo/middleware/download_delay.py +104 -104
crawlo/middleware/middleware_manager.py +142 -142
crawlo/middleware/offsite.py +123 -123
crawlo/middleware/proxy.py +209 -386
crawlo/middleware/request_ignore.py +86 -86
crawlo/middleware/response_code.py +150 -150
crawlo/middleware/response_filter.py +136 -136
crawlo/middleware/retry.py +124 -124
crawlo/mode_manager.py +287 -253
crawlo/network/__init__.py +21 -21
crawlo/network/request.py +375 -379
crawlo/network/response.py +569 -664
crawlo/pipelines/__init__.py +53 -22
crawlo/pipelines/base_pipeline.py +452 -0
crawlo/pipelines/bloom_dedup_pipeline.py +146 -146
crawlo/pipelines/console_pipeline.py +39 -39
crawlo/pipelines/csv_pipeline.py +316 -316
crawlo/pipelines/database_dedup_pipeline.py +197 -197
crawlo/pipelines/json_pipeline.py +218 -218
crawlo/pipelines/memory_dedup_pipeline.py +105 -105
crawlo/pipelines/mongo_pipeline.py +140 -132
crawlo/pipelines/mysql_pipeline.py +470 -326
crawlo/pipelines/pipeline_manager.py +100 -100
crawlo/pipelines/redis_dedup_pipeline.py +155 -156
crawlo/project.py +347 -347
crawlo/queue/__init__.py +10 -0
crawlo/queue/pqueue.py +38 -38
crawlo/queue/queue_manager.py +591 -525
crawlo/queue/redis_priority_queue.py +519 -370
crawlo/settings/__init__.py +7 -7
crawlo/settings/default_settings.py +285 -270
crawlo/settings/setting_manager.py +219 -219
crawlo/spider/__init__.py +657 -657
crawlo/stats_collector.py +82 -73
crawlo/subscriber.py +129 -129
crawlo/task_manager.py +138 -138
crawlo/templates/crawlo.cfg.tmpl +10 -10
crawlo/templates/project/__init__.py.tmpl +2 -4
crawlo/templates/project/items.py.tmpl +13 -17
crawlo/templates/project/middlewares.py.tmpl +38 -38
crawlo/templates/project/pipelines.py.tmpl +35 -36
crawlo/templates/project/settings.py.tmpl +110 -157
crawlo/templates/project/settings_distributed.py.tmpl +156 -161
crawlo/templates/project/settings_gentle.py.tmpl +170 -171
crawlo/templates/project/settings_high_performance.py.tmpl +171 -172
crawlo/templates/project/settings_minimal.py.tmpl +99 -77
crawlo/templates/project/settings_simple.py.tmpl +168 -169
crawlo/templates/project/spiders/__init__.py.tmpl +9 -9
crawlo/templates/run.py.tmpl +23 -30
crawlo/templates/spider/spider.py.tmpl +33 -144
crawlo/templates/spiders_init.py.tmpl +5 -10
crawlo/tools/__init__.py +86 -189
crawlo/tools/date_tools.py +289 -289
crawlo/tools/distributed_coordinator.py +384 -384
crawlo/tools/scenario_adapter.py +262 -262
crawlo/tools/text_cleaner.py +232 -232
crawlo/utils/__init__.py +50 -50
crawlo/utils/batch_processor.py +276 -259
crawlo/utils/config_manager.py +442 -0
crawlo/utils/controlled_spider_mixin.py +439 -439
crawlo/utils/db_helper.py +250 -244
crawlo/utils/error_handler.py +410 -410
crawlo/utils/fingerprint.py +121 -121
crawlo/utils/func_tools.py +82 -82
crawlo/utils/large_scale_helper.py +344 -344
crawlo/utils/leak_detector.py +335 -0
crawlo/utils/log.py +79 -79
crawlo/utils/misc.py +81 -81
crawlo/utils/mongo_connection_pool.py +157 -0
crawlo/utils/mysql_connection_pool.py +197 -0
crawlo/utils/performance_monitor.py +285 -285
crawlo/utils/queue_helper.py +175 -175
crawlo/utils/redis_checker.py +91 -0
crawlo/utils/redis_connection_pool.py +578 -388
crawlo/utils/redis_key_validator.py +198 -198
crawlo/utils/request.py +278 -256
crawlo/utils/request_serializer.py +225 -225
crawlo/utils/resource_manager.py +337 -0
crawlo/utils/selector_helper.py +137 -137
crawlo/utils/singleton.py +70 -0
crawlo/utils/spider_loader.py +201 -201
crawlo/utils/text_helper.py +94 -94
crawlo/utils/{url.py → url_utils.py} +39 -39
crawlo-1.4.7.dist-info/METADATA +689 -0
crawlo-1.4.7.dist-info/RECORD +347 -0
examples/__init__.py +7 -7
tests/__init__.py +7 -7
tests/advanced_tools_example.py +217 -275
tests/authenticated_proxy_example.py +110 -106
tests/baidu_performance_test.py +108 -108
tests/baidu_test.py +59 -59
tests/bug_check_test.py +250 -250
tests/cleaners_example.py +160 -160
tests/comprehensive_framework_test.py +212 -212
tests/comprehensive_test.py +81 -81
tests/comprehensive_testing_summary.md +186 -186
tests/config_validation_demo.py +142 -142
tests/controlled_spider_example.py +205 -205
tests/date_tools_example.py +180 -180
tests/debug_configure.py +69 -69
tests/debug_framework_logger.py +84 -84
tests/debug_log_config.py +126 -126
tests/debug_log_levels.py +63 -63
tests/debug_pipelines.py +66 -66
tests/detailed_log_test.py +233 -233
tests/direct_selector_helper_test.py +96 -96
tests/distributed_dedup_test.py +467 -0
tests/distributed_test.py +66 -66
tests/distributed_test_debug.py +76 -76
tests/dynamic_loading_example.py +523 -523
tests/dynamic_loading_test.py +104 -104
tests/error_handling_example.py +171 -171
tests/explain_mysql_update_behavior.py +77 -0
tests/final_comprehensive_test.py +151 -151
tests/final_log_test.py +260 -260
tests/final_validation_test.py +182 -182
tests/fix_log_test.py +142 -142
tests/framework_performance_test.py +202 -202
tests/log_buffering_test.py +111 -111
tests/log_generation_timing_test.py +153 -153
tests/monitor_redis_dedup.sh +72 -0
tests/ofweek_scrapy/ofweek_scrapy/items.py +12 -12
tests/ofweek_scrapy/ofweek_scrapy/middlewares.py +100 -100
tests/ofweek_scrapy/ofweek_scrapy/pipelines.py +13 -13
tests/ofweek_scrapy/ofweek_scrapy/settings.py +84 -84
tests/ofweek_scrapy/scrapy.cfg +11 -11
tests/optimized_performance_test.py +211 -211
tests/performance_comparison.py +244 -244
tests/queue_blocking_test.py +113 -113
tests/queue_test.py +89 -89
tests/redis_key_validation_demo.py +130 -130
tests/request_params_example.py +150 -150
tests/response_improvements_example.py +144 -144
tests/scrapy_comparison/ofweek_scrapy.py +138 -138
tests/scrapy_comparison/scrapy_test.py +133 -133
tests/simple_cli_test.py +55 -0
tests/simple_command_test.py +119 -119
tests/simple_crawlo_test.py +126 -126
tests/simple_follow_test.py +38 -38
tests/simple_log_test2.py +137 -137
tests/simple_optimization_test.py +128 -128
tests/simple_queue_type_test.py +41 -41
tests/simple_response_selector_test.py +94 -94
tests/simple_selector_helper_test.py +154 -154
tests/simple_selector_test.py +207 -207
tests/simple_spider_test.py +49 -49
tests/simple_url_test.py +73 -73
tests/simulate_mysql_update_test.py +140 -0
tests/spider_log_timing_test.py +177 -177
tests/test_advanced_tools.py +148 -148
tests/test_all_commands.py +230 -230
tests/test_all_pipeline_fingerprints.py +133 -133
tests/test_all_redis_key_configs.py +145 -145
tests/test_asyncmy_usage.py +57 -0
tests/test_batch_processor.py +178 -178
tests/test_cleaners.py +54 -54
tests/test_cli_arguments.py +119 -0
tests/test_component_factory.py +174 -174
tests/test_config_consistency.py +80 -80
tests/test_config_merge.py +152 -152
tests/test_config_validator.py +182 -182
tests/test_controlled_spider_mixin.py +79 -79
tests/test_crawler_process_import.py +38 -38
tests/test_crawler_process_spider_modules.py +47 -47
tests/test_crawlo_proxy_integration.py +114 -108
tests/test_date_tools.py +123 -123
tests/test_dedup_fix.py +220 -220
tests/test_dedup_pipeline_consistency.py +124 -124
tests/test_default_header_middleware.py +313 -313
tests/test_distributed.py +65 -65
tests/test_double_crawlo_fix.py +204 -204
tests/test_double_crawlo_fix_simple.py +124 -124
tests/test_download_delay_middleware.py +221 -221
tests/test_downloader_proxy_compatibility.py +272 -268
tests/test_edge_cases.py +305 -305
tests/test_encoding_core.py +56 -56
tests/test_encoding_detection.py +126 -126
tests/test_enhanced_error_handler.py +270 -270
tests/test_enhanced_error_handler_comprehensive.py +245 -245
tests/test_error_handler_compatibility.py +112 -112
tests/test_factories.py +252 -252
tests/test_factory_compatibility.py +196 -196
tests/test_final_validation.py +153 -153
tests/test_fingerprint_consistency.py +135 -135
tests/test_fingerprint_simple.py +51 -51
tests/test_get_component_logger.py +83 -83
tests/test_hash_performance.py +99 -99
tests/test_integration.py +169 -169
tests/test_item_dedup_redis_key.py +122 -122
tests/test_large_scale_helper.py +235 -235
tests/test_logging_enhancements.py +374 -374
tests/test_logging_final.py +184 -184
tests/test_logging_integration.py +312 -312
tests/test_logging_system.py +282 -282
tests/test_middleware_debug.py +141 -141
tests/test_mode_consistency.py +51 -51
tests/test_multi_directory.py +67 -67
tests/test_multiple_spider_modules.py +80 -80
tests/test_mysql_pipeline_config.py +165 -0
tests/test_mysql_pipeline_error.py +99 -0
tests/test_mysql_pipeline_init_log.py +83 -0
tests/test_mysql_pipeline_integration.py +133 -0
tests/test_mysql_pipeline_refactor.py +144 -0
tests/test_mysql_pipeline_refactor_simple.py +86 -0
tests/test_mysql_pipeline_robustness.py +196 -0
tests/test_mysql_pipeline_types.py +89 -0
tests/test_mysql_update_columns.py +94 -0
tests/test_offsite_middleware.py +244 -244
tests/test_offsite_middleware_simple.py +203 -203
tests/test_optimized_selector_naming.py +100 -100
tests/test_parsel.py +29 -29
tests/test_performance.py +327 -327
tests/test_performance_monitor.py +115 -115
tests/test_pipeline_fingerprint_consistency.py +86 -86
tests/test_priority_behavior.py +211 -211
tests/test_priority_consistency.py +151 -151
tests/test_priority_consistency_fixed.py +249 -249
tests/test_proxy_health_check.py +32 -32
tests/test_proxy_middleware.py +217 -121
tests/test_proxy_middleware_enhanced.py +212 -216
tests/test_proxy_middleware_integration.py +142 -137
tests/test_proxy_middleware_refactored.py +207 -184
tests/test_proxy_only.py +84 -0
tests/test_proxy_providers.py +56 -56
tests/test_proxy_stats.py +19 -19
tests/test_proxy_strategies.py +59 -59
tests/test_proxy_with_downloader.py +153 -0
tests/test_queue_empty_check.py +41 -41
tests/test_queue_manager_double_crawlo.py +173 -173
tests/test_queue_manager_redis_key.py +179 -179
tests/test_queue_naming.py +154 -154
tests/test_queue_type.py +106 -106
tests/test_queue_type_redis_config_consistency.py +130 -130
tests/test_random_headers_default.py +322 -322
tests/test_random_headers_necessity.py +308 -308
tests/test_random_user_agent.py +72 -72
tests/test_redis_config.py +28 -28
tests/test_redis_connection_pool.py +294 -294
tests/test_redis_key_naming.py +181 -181
tests/test_redis_key_validator.py +123 -123
tests/test_redis_queue.py +224 -224
tests/test_redis_queue_name_fix.py +175 -175
tests/test_redis_queue_type_fallback.py +129 -129
tests/test_request_ignore_middleware.py +182 -182
tests/test_request_params.py +111 -111
tests/test_request_serialization.py +70 -70
tests/test_response_code_middleware.py +349 -349
tests/test_response_filter_middleware.py +427 -427
tests/test_response_follow.py +104 -104
tests/test_response_improvements.py +152 -152
tests/test_response_selector_methods.py +92 -92
tests/test_response_url_methods.py +70 -70
tests/test_response_urljoin.py +86 -86
tests/test_retry_middleware.py +333 -333
tests/test_retry_middleware_realistic.py +273 -273
tests/test_scheduler.py +252 -252
tests/test_scheduler_config_update.py +133 -133
tests/test_scrapy_style_encoding.py +112 -112
tests/test_selector_helper.py +100 -100
tests/test_selector_optimizations.py +146 -146
tests/test_simple_response.py +61 -61
tests/test_spider_loader.py +49 -49
tests/test_spider_loader_comprehensive.py +69 -69
tests/test_spider_modules.py +84 -84
tests/test_spiders/test_spider.py +9 -9
tests/test_telecom_spider_redis_key.py +205 -205
tests/test_template_content.py +87 -87
tests/test_template_redis_key.py +134 -134
tests/test_tools.py +159 -159
tests/test_user_agent_randomness.py +176 -176
tests/test_user_agents.py +96 -96
tests/untested_features_report.md +138 -138
tests/verify_debug.py +51 -51
tests/verify_distributed.py +117 -117
tests/verify_log_fix.py +111 -111
tests/verify_mysql_warnings.py +110 -0
crawlo/logging/async_handler.py +0 -181
crawlo/logging/monitor.py +0 -153
crawlo/logging/sampler.py +0 -167
crawlo/middleware/simple_proxy.py +0 -65
crawlo/tools/authenticated_proxy.py +0 -241
crawlo/tools/data_formatter.py +0 -226
crawlo/tools/data_validator.py +0 -181
crawlo/tools/encoding_converter.py +0 -127
crawlo/tools/network_diagnostic.py +0 -365
crawlo/tools/request_tools.py +0 -83
crawlo/tools/retry_mechanism.py +0 -224
crawlo/utils/env_config.py +0 -143
crawlo/utils/large_scale_config.py +0 -287
crawlo/utils/system.py +0 -11
crawlo/utils/tools.py +0 -5
crawlo-1.4.5.dist-info/METADATA +0 -329
crawlo-1.4.5.dist-info/RECORD +0 -347
tests/env_config_example.py +0 -134
tests/ofweek_scrapy/ofweek_scrapy/spiders/ofweek_spider.py +0 -162
tests/test_authenticated_proxy.py +0 -142
tests/test_comprehensive.py +0 -147
tests/test_dynamic_downloaders_proxy.py +0 -125
tests/test_dynamic_proxy.py +0 -93
tests/test_dynamic_proxy_config.py +0 -147
tests/test_dynamic_proxy_real.py +0 -110
tests/test_env_config.py +0 -122
tests/test_framework_env_usage.py +0 -104
tests/test_large_scale_config.py +0 -113
tests/test_proxy_api.py +0 -265
tests/test_real_scenario_proxy.py +0 -196
tests/tools_example.py +0 -261
{crawlo-1.4.5.dist-info → crawlo-1.4.7.dist-info}/WHEEL +0 -0
{crawlo-1.4.5.dist-info → crawlo-1.4.7.dist-info}/entry_points.txt +0 -0
{crawlo-1.4.5.dist-info → crawlo-1.4.7.dist-info}/top_level.txt +0 -0

crawlo/queue/queue_manager.py CHANGED Viewed

@@ -1,525 +1,591 @@
-#!/usr/bin/python
-# -*- coding: UTF-8 -*-
-"""
-统一的队列管理器
-提供简洁、一致的队列接口，自动处理不同队列类型的差异
-"""
-import asyncio
-import time
-import traceback
-from enum import Enum
-from typing import Optional, Dict, Any, Union, TYPE_CHECKING
-if TYPE_CHECKING:
-    from crawlo import Request
-from crawlo.queue.pqueue import SpiderPriorityQueue
-from crawlo.utils.error_handler import ErrorHandler
-from crawlo.utils.log import get_logger
-from crawlo.utils.request_serializer import RequestSerializer
-try:
-    # 使用完整版Redis队列
-    from crawlo.queue.redis_priority_queue import RedisPriorityQueue
-    REDIS_AVAILABLE = True
-except ImportError:
-    RedisPriorityQueue = None
-    REDIS_AVAILABLE = False
-class QueueType(Enum):
-    """Queue type enumeration"""
-    MEMORY = "memory"
-    REDIS = "redis"
-    AUTO = "auto"  # 自动选择
-class IntelligentScheduler:
-    """智能调度器"""
-    def __init__(self):
-        self.domain_stats = {}  # 域名统计信息
-        self.url_stats = {}  # URL统计信息
-        self.last_request_time = {}  # 最后请求时间
-    def calculate_priority(self, request: "Request") -> int:
-        """计算请求的智能优先级"""
-        priority = getattr(request, 'priority', 0)
-        # 获取域名
-        domain = self._extract_domain(request.url)
-        # 基于域名访问频率调整优先级
-        if domain in self.domain_stats:
-            domain_access_count = self.domain_stats[domain]['count']
-            last_access_time = self.domain_stats[domain]['last_time']
-            # 如果最近访问过该域名，降低优先级（避免过度集中访问同一域名）
-            time_since_last = time.time() - last_access_time
-            if time_since_last < 5:  # 5秒内访问过
-                priority -= 2
-            elif time_since_last < 30:  # 30秒内访问过
-                priority -= 1
-            # 如果该域名访问次数过多，进一步降低优先级
-            if domain_access_count > 10:
-                priority -= 1
-        # 基于URL访问历史调整优先级
-        if request.url in self.url_stats:
-            url_access_count = self.url_stats[request.url]
-            if url_access_count > 1:
-                # 重复URL降低优先级
-                priority -= url_access_count
-        # 基于深度调整优先级
-        depth = getattr(request, 'meta', {}).get('depth', 0)
-        priority -= depth  # 深度越大，优先级越低
-        return priority
-    def update_stats(self, request: "Request"):
-        """更新统计信息"""
-        domain = self._extract_domain(request.url)
-        # 更新域名统计
-        if domain not in self.domain_stats:
-            self.domain_stats[domain] = {'count': 0, 'last_time': 0}
-        self.domain_stats[domain]['count'] += 1
-        self.domain_stats[domain]['last_time'] = time.time()
-        # 更新URL统计
-        if request.url not in self.url_stats:
-            self.url_stats[request.url] = 0
-        self.url_stats[request.url] += 1
-        # 更新最后请求时间
-        self.last_request_time[domain] = time.time()
-    def _extract_domain(self, url: str) -> str:
-        """提取域名"""
-        try:
-            from urllib.parse import urlparse
-            parsed = urlparse(url)
-            return parsed.netloc
-        except:
-            return "unknown"
-class QueueConfig:
-    """Queue configuration class"""
-    def __init__(
-            self,
-            queue_type: Union[QueueType, str] = QueueType.AUTO,
-            redis_url: Optional[str] = None,
-            redis_host: str = "127.0.0.1",
-            redis_port: int = 6379,
-            redis_password: Optional[str] = None,
-            redis_db: int = 0,
-            queue_name: str = "crawlo:requests",
-            max_queue_size: int = 1000,
-            max_retries: int = 3,
-            timeout: int = 300,
-            **kwargs
-    ):
-        self.queue_type = QueueType(queue_type) if isinstance(queue_type, str) else queue_type
-        # Redis 配置
-        if redis_url:
-            self.redis_url = redis_url
-        else:
-            if redis_password:
-                self.redis_url = f"redis://:{redis_password}@{redis_host}:{redis_port}/{redis_db}"
-            else:
-                self.redis_url = f"redis://{redis_host}:{redis_port}/{redis_db}"
-        self.queue_name = queue_name
-        self.max_queue_size = max_queue_size
-        self.max_retries = max_retries
-        self.timeout = timeout
-        self.extra_config = kwargs
-    @classmethod
-    def from_settings(cls, settings) -> 'QueueConfig':
-        """Create configuration from settings"""
-        # 获取项目名称，用于生成默认队列名称
-        project_name = settings.get('PROJECT_NAME', 'default')
-        default_queue_name = f"crawlo:{project_name}:queue:requests"
-        # 如果设置了SCHEDULER_QUEUE_NAME，则使用该值，否则使用基于项目名称的默认值
-        scheduler_queue_name = settings.get('SCHEDULER_QUEUE_NAME')
-        if scheduler_queue_name is not None:
-            queue_name = scheduler_queue_name
-        else:
-            queue_name = default_queue_name
-        return cls(
-            queue_type=settings.get('QUEUE_TYPE', QueueType.AUTO),
-            redis_url=settings.get('REDIS_URL'),
-            redis_host=settings.get('REDIS_HOST', '127.0.0.1'),
-            redis_port=settings.get_int('REDIS_PORT', 6379),
-            redis_password=settings.get('REDIS_PASSWORD'),
-            redis_db=settings.get_int('REDIS_DB', 0),
-            queue_name=queue_name,
-            max_queue_size=settings.get_int('SCHEDULER_MAX_QUEUE_SIZE', 1000),
-            max_retries=settings.get_int('QUEUE_MAX_RETRIES', 3),
-            timeout=settings.get_int('QUEUE_TIMEOUT', 300)
-        )
-class QueueManager:
-    """Unified queue manager"""
-    def __init__(self, config: QueueConfig):
-        self.config = config
-        # 延迟初始化logger和error_handler避免循环依赖
-        self._logger = None
-        self._error_handler = None
-        self.request_serializer = RequestSerializer()
-        self._queue = None
-        self._queue_semaphore = None
-        self._queue_type = None
-        self._health_status = "unknown"
-        self._intelligent_scheduler = IntelligentScheduler()  # 智能调度器
-    @property
-    def logger(self):
-        if self._logger is None:
-            self._logger = get_logger(self.__class__.__name__)
-        return self._logger
-    @property
-    def error_handler(self):
-        if self._error_handler is None:
-            self._error_handler = ErrorHandler(self.__class__.__name__)
-        return self._error_handler
-    async def initialize(self) -> bool:
-        """初始化队列"""
-        try:
-            queue_type = await self._determine_queue_type()
-            self._queue = await self._create_queue(queue_type)
-            self._queue_type = queue_type
-            # 测试队列健康状态
-            health_check_result = await self._health_check()
-            self.logger.info(f"Queue initialized successfully Type: {queue_type.value}")
-            # 只在调试模式下输出详细配置信息
-            self.logger.debug(f"Queue configuration: {self._get_queue_info()}")
-            # 如果健康检查返回True，表示队列类型发生了切换，需要更新配置
-            if health_check_result:
-                return True
-            # 如果队列类型是Redis，检查是否需要更新配置
-            if queue_type == QueueType.REDIS:
-                # 这个检查需要在调度器中进行，因为队列管理器无法访问crawler.settings
-                # 但我们不需要总是返回True，只有在确实需要更新时才返回True
-                # 调度器会进行更详细的检查
-                pass
-            return False  # 默认不需要更新配置
-        except Exception as e:
-            # 记录详细的错误信息和堆栈跟踪
-            self.logger.error(f"Queue initialization failed: {e}")
-            self.logger.debug(f"详细错误信息:\n{traceback.format_exc()}")
-            self._health_status = "error"
-            return False
-    async def put(self, request: "Request", priority: int = 0) -> bool:
-        """Unified enqueue interface"""
-        if not self._queue:
-            raise RuntimeError("队列未初始化")
-        try:
-            # 应用智能调度算法计算优先级
-            intelligent_priority = self._intelligent_scheduler.calculate_priority(request)
-            # 结合原始优先级和智能优先级
-            final_priority = priority + intelligent_priority
-            # 更新统计信息
-            self._intelligent_scheduler.update_stats(request)
-            # 序列化处理（仅对 Redis 队列）
-            if self._queue_type == QueueType.REDIS:
-                request = self.request_serializer.prepare_for_serialization(request)
-            # 背压控制（仅对内存队列）
-            if self._queue_semaphore:
-                # 对于大量请求，使用阻塞式等待而不是跳过
-                # 这样可以确保不会丢失任何请求
-                await self._queue_semaphore.acquire()
-            # 统一的入队操作
-            if hasattr(self._queue, 'put'):
-                if self._queue_type == QueueType.REDIS:
-                    success = await self._queue.put(request, final_priority)
-                else:
-                    # 对于内存队列，我们需要手动处理优先级
-                    # 在SpiderPriorityQueue中，元素应该是(priority, item)的元组
-                    await self._queue.put((final_priority, request))
-                    success = True
-            else:
-                raise RuntimeError(f"队列类型 {self._queue_type} 不支持 put 操作")
-            if success:
-                self.logger.debug(f"Request enqueued successfully: {request.url} with priority {final_priority}")
-            return success
-        except Exception as e:
-            self.logger.error(f"Failed to enqueue request: {e}")
-            if self._queue_semaphore:
-                self._queue_semaphore.release()
-            return False
-    async def get(self, timeout: float = 5.0) -> Optional["Request"]:
-        """Unified dequeue interface"""
-        if not self._queue:
-            raise RuntimeError("队列未初始化")
-        try:
-            request = await self._queue.get(timeout=timeout)
-            # 释放信号量（仅对内存队列）
-            if self._queue_semaphore and request:
-                self._queue_semaphore.release()
-            # 反序列化处理（仅对 Redis 队列）
-            if request and self._queue_type == QueueType.REDIS:
-                # 这里需要 spider 实例，暂时返回原始请求
-                # 实际的 callback 恢复在 scheduler 中处理
-                pass
-            # 如果是内存队列，需要解包(priority, request)元组
-            if request and self._queue_type == QueueType.MEMORY:
-                if isinstance(request, tuple) and len(request) == 2:
-                    request = request[1]  # 取元组中的请求对象
-            return request
-        except Exception as e:
-            self.logger.error(f"Failed to dequeue request: {e}")
-            return None
-    async def size(self) -> int:
-        """Get queue size"""
-        if not self._queue:
-            return 0
-        try:
-            if hasattr(self._queue, 'qsize'):
-                if asyncio.iscoroutinefunction(self._queue.qsize):
-                    return await self._queue.qsize()
-                else:
-                    return self._queue.qsize()
-            return 0
-        except Exception as e:
-            self.logger.warning(f"Failed to get queue size: {e}")
-            return 0
-    def empty(self) -> bool:
-        """Check if queue is empty (synchronous version, for compatibility)"""
-        try:
-            # 对于内存队列，可以同步检查
-            if self._queue_type == QueueType.MEMORY:
-                # 确保正确检查队列大小
-                if hasattr(self._queue, 'qsize'):
-                    return self._queue.qsize() == 0
-                else:
-                    # 如果没有qsize方法，假设队列为空
-                    return True
-            # 对于 Redis 队列，由于需要异步操作，这里返回近似值
-            # 为了确保程序能正常退出，我们返回True，让上层通过更精确的异步检查来判断
-            return True
-        except Exception:
-            return True
-    async def async_empty(self) -> bool:
-        """Check if queue is empty (asynchronous version, more accurate)"""
-        try:
-            # 对于内存队列
-            if self._queue_type == QueueType.MEMORY:
-                # 确保正确检查队列大小
-                if hasattr(self._queue, 'qsize'):
-                    if asyncio.iscoroutinefunction(self._queue.qsize):
-                        size = await self._queue.qsize()
-                    else:
-                        size = self._queue.qsize()
-                    return size == 0
-                else:
-                    # 如果没有qsize方法，假设队列为空
-                    return True
-            # 对于 Redis 队列，使用异步检查
-            elif self._queue_type == QueueType.REDIS:
-                size = await self.size()
-                return size == 0
-            return True
-        except Exception:
-            return True
-    async def close(self) -> None:
-        """Close queue"""
-        if self._queue and hasattr(self._queue, 'close'):
-            try:
-                await self._queue.close()
-                # Change INFO level log to DEBUG level to avoid redundant output
-                self.logger.debug("Queue closed")
-            except Exception as e:
-                self.logger.warning(f"Error closing queue: {e}")
-    def get_status(self) -> Dict[str, Any]:
-        """Get queue status information"""
-        return {
-            "type": self._queue_type.value if self._queue_type else "unknown",
-            "health": self._health_status,
-            "config": self._get_queue_info(),
-            "initialized": self._queue is not None
-        }
-    async def _determine_queue_type(self) -> QueueType:
-        """Determine queue type"""
-        if self.config.queue_type == QueueType.AUTO:
-            # 自动选择：优先使用 Redis（如果可用）
-            if REDIS_AVAILABLE and self.config.redis_url:
-                # 测试 Redis 连接
-                try:
-                    from crawlo.queue.redis_priority_queue import RedisPriorityQueue
-                    test_queue = RedisPriorityQueue(self.config.redis_url)
-                    await test_queue.connect()
-                    await test_queue.close()
-                    self.logger.debug("Auto-detection: Redis available, using distributed queue")
-                    return QueueType.REDIS
-                except Exception as e:
-                    self.logger.debug(f"Auto-detection: Redis unavailable ({e}), using memory queue")
-                    return QueueType.MEMORY
-            else:
-                self.logger.debug("Auto-detection: Redis not configured, using memory queue")
-                return QueueType.MEMORY
-        elif self.config.queue_type == QueueType.REDIS:
-            # 当 QUEUE_TYPE = 'redis' 时，行为等同于 'auto' 模式
-            # 优先使用 Redis（如果可用），如果不可用则回退到内存队列
-            if REDIS_AVAILABLE and self.config.redis_url:
-                # 测试 Redis 连接
-                try:
-                    from crawlo.queue.redis_priority_queue import RedisPriorityQueue
-                    test_queue = RedisPriorityQueue(self.config.redis_url)
-                    await test_queue.connect()
-                    await test_queue.close()
-                    self.logger.debug("Redis mode: Redis available, using distributed queue")
-                    return QueueType.REDIS
-                except Exception as e:
-                    self.logger.debug(f"Redis mode: Redis unavailable ({e}), falling back to memory queue")
-                    return QueueType.MEMORY
-            else:
-                self.logger.debug("Redis mode: Redis not configured, falling back to memory queue")
-                return QueueType.MEMORY
-        elif self.config.queue_type == QueueType.MEMORY:
-            return QueueType.MEMORY
-        else:
-            raise ValueError(f"不支持的队列类型: {self.config.queue_type}")
-    async def _create_queue(self, queue_type: QueueType):
-        """Create queue instance"""
-        if queue_type == QueueType.REDIS:
-            # 延迟导入Redis队列
-            try:
-                from crawlo.queue.redis_priority_queue import RedisPriorityQueue
-            except ImportError as e:
-                raise RuntimeError(f"Redis队列不可用：未能导入RedisPriorityQueue ({e})")
-            # 修复项目名称提取逻辑，严格按照测试文件中的逻辑实现
-            project_name = "default"
-            if ':' in self.config.queue_name:
-                parts = self.config.queue_name.split(':')
-                if len(parts) >= 2:
-                    # 处理可能的双重 crawlo 前缀
-                    if parts[0] == "crawlo" and parts[1] == "crawlo":
-                        # 双重 crawlo 前缀，取"crawlo"作为项目名称
-                        project_name = "crawlo"
-                    elif parts[0] == "crawlo":
-                        # 正常的 crawlo 前缀，取第二个部分作为项目名称
-                        project_name = parts[1]
-                    else:
-                        # 没有 crawlo 前缀，使用第一个部分作为项目名称
-                        project_name = parts[0]
-                else:
-                    project_name = self.config.queue_name or "default"
-            else:
-                project_name = self.config.queue_name or "default"
-            queue = RedisPriorityQueue(
-                redis_url=self.config.redis_url,
-                queue_name=self.config.queue_name,
-                max_retries=self.config.max_retries,
-                timeout=self.config.timeout,
-                module_name=project_name  # 传递项目名称作为module_name
-            )
-            # 不需要立即连接，使用 lazy connect
-            return queue
-        elif queue_type == QueueType.MEMORY:
-            queue = SpiderPriorityQueue()
-            # 为内存队列设置背压控制
-            self._queue_semaphore = asyncio.Semaphore(self.config.max_queue_size)
-            return queue
-        else:
-            raise ValueError(f"不支持的队列类型: {queue_type}")
-    async def _health_check(self) -> bool:
-        """Health check"""
-        try:
-            if self._queue_type == QueueType.REDIS:
-                # 测试 Redis 连接
-                await self._queue.connect()
-                self._health_status = "healthy"
-            else:
-                # 内存队列总是健康的
-                self._health_status = "healthy"
-                return False  # 内存队列不需要更新配置
-        except Exception as e:
-            self.logger.warning(f"Queue health check failed: {e}")
-            self._health_status = "unhealthy"
-            # 如果是Redis队列且健康检查失败，尝试切换到内存队列
-            # 对于 AUTO 和 REDIS 模式都允许回退
-            if self._queue_type == QueueType.REDIS and self.config.queue_type in [QueueType.AUTO, QueueType.REDIS]:
-                self.logger.info("Redis queue unavailable, attempting to switch to memory queue...")
-                try:
-                    await self._queue.close()
-                except:
-                    pass
-                self._queue = None
-                # 重新创建内存队列
-                self._queue = await self._create_queue(QueueType.MEMORY)
-                self._queue_type = QueueType.MEMORY
-                self._queue_semaphore = asyncio.Semaphore(self.config.max_queue_size)
-                self._health_status = "healthy"
-                self.logger.info("Switched to memory queue")
-                # 返回一个信号，表示需要更新过滤器和去重管道配置
-                return True
-        return False
-    def _get_queue_info(self) -> Dict[str, Any]:
-        """Get queue configuration information"""
-        info = {
-            "queue_name": self.config.queue_name,
-            "max_queue_size": self.config.max_queue_size
-        }
-        if self._queue_type == QueueType.REDIS:
-            info.update({
-                "redis_url": self.config.redis_url,
-                "max_retries": self.config.max_retries,
-                "timeout": self.config.timeout
-            })
-        return info
+#!/usr/bin/python
+# -*- coding: UTF-8 -*-
+"""
+统一的队列管理器
+提供简洁、一致的队列接口，自动处理不同队列类型的差异
+"""
+import asyncio
+import time
+import traceback
+from enum import Enum
+from typing import Optional, Dict, Any, Union, TYPE_CHECKING
+if TYPE_CHECKING:
+    from crawlo import Request
+from crawlo.queue.pqueue import SpiderPriorityQueue
+from crawlo.utils.error_handler import ErrorHandler
+from crawlo.logging import get_logger
+from crawlo.utils.request_serializer import RequestSerializer
+try:
+    # 使用完整版Redis队列
+    from crawlo.queue.redis_priority_queue import RedisPriorityQueue
+    REDIS_AVAILABLE = True
+except ImportError:
+    RedisPriorityQueue = None
+    REDIS_AVAILABLE = False
+class QueueType(Enum):
+    """Queue type enumeration"""
+    MEMORY = "memory"
+    REDIS = "redis"
+    AUTO = "auto"  # 自动选择
+class IntelligentScheduler:
+    """智能调度器"""
+    def __init__(self):
+        self.domain_stats = {}  # 域名统计信息
+        self.url_stats = {}  # URL统计信息
+        self.last_request_time = {}  # 最后请求时间
+    def calculate_priority(self, request: "Request") -> int:
+        """计算请求的智能优先级"""
+        priority = getattr(request, 'priority', 0)
+        # 获取域名
+        domain = self._extract_domain(request.url)
+        # 基于域名访问频率调整优先级
+        if domain in self.domain_stats:
+            domain_access_count = self.domain_stats[domain]['count']
+            last_access_time = self.domain_stats[domain]['last_time']
+            # 如果最近访问过该域名，降低优先级（避免过度集中访问同一域名）
+            time_since_last = time.time() - last_access_time
+            if time_since_last < 5:  # 5秒内访问过
+                priority -= 2
+            elif time_since_last < 30:  # 30秒内访问过
+                priority -= 1
+            # 如果该域名访问次数过多，进一步降低优先级
+            if domain_access_count > 10:
+                priority -= 1
+        # 基于URL访问历史调整优先级
+        if request.url in self.url_stats:
+            url_access_count = self.url_stats[request.url]
+            if url_access_count > 1:
+                # 重复URL降低优先级
+                priority -= url_access_count
+        # 基于深度调整优先级
+        depth = getattr(request, 'meta', {}).get('depth', 0)
+        priority -= depth  # 深度越大，优先级越低
+        return priority
+    def update_stats(self, request: "Request"):
+        """更新统计信息"""
+        domain = self._extract_domain(request.url)
+        # 更新域名统计
+        if domain not in self.domain_stats:
+            self.domain_stats[domain] = {'count': 0, 'last_time': 0}
+        self.domain_stats[domain]['count'] += 1
+        self.domain_stats[domain]['last_time'] = time.time()
+        # 更新URL统计
+        if request.url not in self.url_stats:
+            self.url_stats[request.url] = 0
+        self.url_stats[request.url] += 1
+        # 更新最后请求时间
+        self.last_request_time[domain] = time.time()
+    def _extract_domain(self, url: str) -> str:
+        """提取域名"""
+        try:
+            from urllib.parse import urlparse
+            parsed = urlparse(url)
+            return parsed.netloc
+        except:
+            return "unknown"
+class QueueConfig:
+    """Queue configuration class"""
+    def __init__(
+            self,
+            queue_type: Union[QueueType, str] = QueueType.AUTO,
+            redis_url: Optional[str] = None,
+            redis_host: str = "127.0.0.1",
+            redis_port: int = 6379,
+            redis_password: Optional[str] = None,
+            redis_db: int = 0,
+            queue_name: str = "crawlo:requests",
+            max_queue_size: int = 1000,
+            max_retries: int = 3,
+            timeout: int = 300,
+            run_mode: Optional[str] = None,  # 新增：运行模式
+            **kwargs
+    ):
+        self.queue_type = QueueType(queue_type) if isinstance(queue_type, str) else queue_type
+        self.run_mode = run_mode  # 保存运行模式
+        # Redis 配置
+        if redis_url:
+            self.redis_url = redis_url
+        else:
+            if redis_password:
+                self.redis_url = f"redis://:{redis_password}@{redis_host}:{redis_port}/{redis_db}"
+            else:
+                self.redis_url = f"redis://{redis_host}:{redis_port}/{redis_db}"
+        self.queue_name = queue_name
+        self.max_queue_size = max_queue_size
+        self.max_retries = max_retries
+        self.timeout = timeout
+        self.extra_config = kwargs
+    @classmethod
+    def from_settings(cls, settings) -> 'QueueConfig':
+        """Create configuration from settings"""
+        # 获取项目名称，用于生成默认队列名称
+        project_name = settings.get('PROJECT_NAME', 'default')
+        default_queue_name = f"crawlo:{project_name}:queue:requests"
+        # 如果设置了SCHEDULER_QUEUE_NAME，则使用该值，否则使用基于项目名称的默认值
+        scheduler_queue_name = settings.get('SCHEDULER_QUEUE_NAME')
+        if scheduler_queue_name is not None:
+            queue_name = scheduler_queue_name
+        else:
+            queue_name = default_queue_name
+        return cls(
+            queue_type=settings.get('QUEUE_TYPE', QueueType.AUTO),
+            redis_url=settings.get('REDIS_URL'),
+            redis_host=settings.get('REDIS_HOST', '127.0.0.1'),
+            redis_port=settings.get_int('REDIS_PORT', 6379),
+            redis_password=settings.get('REDIS_PASSWORD'),
+            redis_db=settings.get_int('REDIS_DB', 0),
+            queue_name=queue_name,
+            max_queue_size=settings.get_int('SCHEDULER_MAX_QUEUE_SIZE', 1000),
+            max_retries=settings.get_int('QUEUE_MAX_RETRIES', 3),
+            timeout=settings.get_int('QUEUE_TIMEOUT', 300),
+            run_mode=settings.get('RUN_MODE')  # 传递运行模式
+        )
+class QueueManager:
+    """Unified queue manager"""
+    def __init__(self, config: QueueConfig):
+        self.config = config
+        # 延迟初始化logger和error_handler避免循环依赖
+        self._logger = None
+        self._error_handler = None
+        self.request_serializer = RequestSerializer()
+        self._queue = None
+        self._queue_semaphore = None
+        self._queue_type = None
+        self._health_status = "unknown"
+        self._intelligent_scheduler = IntelligentScheduler()  # 智能调度器
+    @property
+    def logger(self):
+        if self._logger is None:
+            self._logger = get_logger(self.__class__.__name__)
+        return self._logger
+    @property
+    def error_handler(self):
+        if self._error_handler is None:
+            self._error_handler = ErrorHandler(self.__class__.__name__)
+        return self._error_handler
+    async def initialize(self) -> bool:
+        """初始化队列"""
+        try:
+            queue_type = await self._determine_queue_type()
+            self._queue = await self._create_queue(queue_type)
+            self._queue_type = queue_type
+            # 测试队列健康状态
+            health_check_result = await self._health_check()
+            self.logger.info(f"Queue initialized successfully Type: {queue_type.value}")
+            # 只在调试模式下输出详细配置信息
+            self.logger.debug(f"Queue configuration: {self._get_queue_info()}")
+            # 如果健康检查返回True，表示队列类型发生了切换，需要更新配置
+            if health_check_result:
+                return True
+            # 如果队列类型是Redis，检查是否需要更新配置
+            if queue_type == QueueType.REDIS:
+                # 这个检查需要在调度器中进行，因为队列管理器无法访问crawler.settings
+                # 但我们不需要总是返回True，只有在确实需要更新时才返回True
+                # 调度器会进行更详细的检查
+                pass
+            return False  # 默认不需要更新配置
+        except RuntimeError as e:
+            # Distributed 模式下的 RuntimeError 必须重新抛出
+            if self.config.run_mode == 'distributed':
+                self.logger.error(f"Queue initialization failed: {e}")
+                self._health_status = "error"
+                raise  # 重新抛出异常
+            # 其他模式记录错误但不抛出
+            self.logger.error(f"Queue initialization failed: {e}")
+            self.logger.debug(f"详细错误信息:\n{traceback.format_exc()}")
+            self._health_status = "error"
+            return False
+        except Exception as e:
+            # 记录详细的错误信息和堆栈跟踪
+            self.logger.error(f"Queue initialization failed: {e}")
+            self.logger.debug(f"详细错误信息:\n{traceback.format_exc()}")
+            self._health_status = "error"
+            return False
+    async def put(self, request: "Request", priority: int = 0) -> bool:
+        """Unified enqueue interface"""
+        if not self._queue:
+            raise RuntimeError("队列未初始化")
+        try:
+            # 应用智能调度算法计算优先级
+            intelligent_priority = self._intelligent_scheduler.calculate_priority(request)
+            # 结合原始优先级和智能优先级
+            final_priority = priority + intelligent_priority
+            # 更新统计信息
+            self._intelligent_scheduler.update_stats(request)
+            # 序列化处理（仅对 Redis 队列）
+            if self._queue_type == QueueType.REDIS:
+                request = self.request_serializer.prepare_for_serialization(request)
+            # 背压控制（仅对内存队列）
+            if self._queue_semaphore:
+                # 对于大量请求，使用阻塞式等待而不是跳过
+                # 这样可以确保不会丢失任何请求
+                await self._queue_semaphore.acquire()
+            # 统一的入队操作
+            if hasattr(self._queue, 'put'):
+                if self._queue_type == QueueType.REDIS:
+                    success = await self._queue.put(request, final_priority)
+                else:
+                    # 对于内存队列，我们需要手动处理优先级
+                    # 在SpiderPriorityQueue中，元素应该是(priority, item)的元组
+                    await self._queue.put((final_priority, request))
+                    success = True
+            else:
+                raise RuntimeError(f"队列类型 {self._queue_type} 不支持 put 操作")
+            if success:
+                self.logger.debug(f"Request enqueued successfully: {request.url} with priority {final_priority}")
+            return success
+        except Exception as e:
+            self.logger.error(f"Failed to enqueue request: {e}")
+            if self._queue_semaphore:
+                self._queue_semaphore.release()
+            return False
+    async def get(self, timeout: float = 5.0) -> Optional["Request"]:
+        """Unified dequeue interface"""
+        if not self._queue:
+            raise RuntimeError("队列未初始化")
+        try:
+            request = await self._queue.get(timeout=timeout)
+            # 释放信号量（仅对内存队列）
+            if self._queue_semaphore and request:
+                self._queue_semaphore.release()
+            # 反序列化处理（仅对 Redis 队列）
+            if request and self._queue_type == QueueType.REDIS:
+                # 这里需要 spider 实例，暂时返回原始请求
+                # 实际的 callback 恢复在 scheduler 中处理
+                pass
+            # 如果是内存队列，需要解包(priority, request)元组
+            if request and self._queue_type == QueueType.MEMORY:
+                if isinstance(request, tuple) and len(request) == 2:
+                    request = request[1]  # 取元组中的请求对象
+            return request
+        except Exception as e:
+            self.logger.error(f"Failed to dequeue request: {e}")
+            return None
+    async def size(self) -> int:
+        """Get queue size"""
+        if not self._queue:
+            return 0
+        try:
+            if hasattr(self._queue, 'qsize'):
+                if asyncio.iscoroutinefunction(self._queue.qsize):
+                    return await self._queue.qsize()
+                else:
+                    return self._queue.qsize()
+            return 0
+        except Exception as e:
+            self.logger.warning(f"Failed to get queue size: {e}")
+            return 0
+    def empty(self) -> bool:
+        """Check if queue is empty (synchronous version, for compatibility)"""
+        try:
+            # 对于内存队列，可以同步检查
+            if self._queue_type == QueueType.MEMORY:
+                # 确保正确检查队列大小
+                if hasattr(self._queue, 'qsize'):
+                    return self._queue.qsize() == 0
+                else:
+                    # 如果没有qsize方法，假设队列为空
+                    return True
+            # 对于 Redis 队列，由于需要异步操作，这里返回近似值
+            # 为了确保程序能正常退出，我们返回True，让上层通过更精确的异步检查来判断
+            return True
+        except Exception:
+            return True
+    async def async_empty(self) -> bool:
+        """Check if queue is empty (asynchronous version, more accurate)"""
+        try:
+            # 对于内存队列
+            if self._queue_type == QueueType.MEMORY:
+                # 确保正确检查队列大小
+                if hasattr(self._queue, 'qsize'):
+                    if asyncio.iscoroutinefunction(self._queue.qsize):
+                        size = await self._queue.qsize()
+                    else:
+                        size = self._queue.qsize()
+                    return size == 0
+                else:
+                    # 如果没有qsize方法，假设队列为空
+                    return True
+            # 对于 Redis 队列，使用异步检查
+            elif self._queue_type == QueueType.REDIS:
+                size = await self.size()
+                return size == 0
+            return True
+        except Exception:
+            return True
+    async def close(self) -> None:
+        """Close queue"""
+        if self._queue and hasattr(self._queue, 'close'):
+            try:
+                await self._queue.close()
+                # Change INFO level log to DEBUG level to avoid redundant output
+                self.logger.debug("Queue closed")
+            except Exception as e:
+                self.logger.warning(f"Error closing queue: {e}")
+    def get_status(self) -> Dict[str, Any]:
+        """Get queue status information"""
+        return {
+            "type": self._queue_type.value if self._queue_type else "unknown",
+            "health": self._health_status,
+            "config": self._get_queue_info(),
+            "initialized": self._queue is not None
+        }
+    async def _determine_queue_type(self) -> QueueType:
+        """Determine queue type"""
+        if self.config.queue_type == QueueType.AUTO:
+            # 自动选择：优先使用 Redis（如果可用）
+            if REDIS_AVAILABLE and self.config.redis_url:
+                # 测试 Redis 连接
+                try:
+                    from crawlo.queue.redis_priority_queue import RedisPriorityQueue
+                    test_queue = RedisPriorityQueue(self.config.redis_url)
+                    await test_queue.connect()
+                    await test_queue.close()
+                    self.logger.debug("Auto-detection: Redis available, using distributed queue")
+                    return QueueType.REDIS
+                except Exception as e:
+                    self.logger.debug(f"Auto-detection: Redis unavailable ({e}), using memory queue")
+                    return QueueType.MEMORY
+            else:
+                self.logger.debug("Auto-detection: Redis not configured, using memory queue")
+                return QueueType.MEMORY
+        elif self.config.queue_type == QueueType.REDIS:
+            # Distributed 模式：必须使用 Redis，不允许降级
+            if self.config.run_mode == 'distributed':
+                # 分布式模式必须确保 Redis 可用
+                if not REDIS_AVAILABLE:
+                    error_msg = (
+                        "Distributed 模式要求 Redis 可用，但 Redis 客户端库未安装。\n"
+                        "请安装 Redis 支持: pip install redis"
+                    )
+                    self.logger.error(error_msg)
+                    raise RuntimeError(error_msg)
+                if not self.config.redis_url:
+                    error_msg = (
+                        "Distributed 模式要求配置 Redis 连接信息。\n"
+                        "请在 settings.py 中配置 REDIS_HOST、REDIS_PORT 等参数"
+                    )
+                    self.logger.error(error_msg)
+                    raise RuntimeError(error_msg)
+                # 测试 Redis 连接
+                try:
+                    from crawlo.queue.redis_priority_queue import RedisPriorityQueue
+                    test_queue = RedisPriorityQueue(self.config.redis_url)
+                    await test_queue.connect()
+                    await test_queue.close()
+                    self.logger.debug("Distributed mode: Redis connection verified")
+                    return QueueType.REDIS
+                except Exception as e:
+                    error_msg = (
+                        f"Distributed 模式要求 Redis 可用，但无法连接到 Redis 服务器。\n"
+                        f"错误信息: {e}\n"
+                        f"Redis URL: {self.config.redis_url}\n"
+                        f"请检查：\n"
+                        f"  1. Redis 服务是否正在运行\n"
+                        f"  2. Redis 连接配置是否正确\n"
+                        f"  3. 网络连接是否正常"
+                    )
+                    self.logger.error(error_msg)
+                    raise RuntimeError(error_msg) from e
+            else:
+                # 非 distributed 模式：QUEUE_TYPE='redis' 时允许降级到 memory
+                # 这提供了向后兼容性和更好的容错性
+                if REDIS_AVAILABLE and self.config.redis_url:
+                    # 测试 Redis 连接
+                    try:
+                        from crawlo.queue.redis_priority_queue import RedisPriorityQueue
+                        test_queue = RedisPriorityQueue(self.config.redis_url)
+                        await test_queue.connect()
+                        await test_queue.close()
+                        self.logger.debug("Redis mode: Redis available, using distributed queue")
+                        return QueueType.REDIS
+                    except Exception as e:
+                        self.logger.warning(f"Redis mode: Redis unavailable ({e}), falling back to memory queue")
+                        return QueueType.MEMORY
+                else:
+                    self.logger.warning("Redis mode: Redis not configured, falling back to memory queue")
+                    return QueueType.MEMORY
+        elif self.config.queue_type == QueueType.MEMORY:
+            return QueueType.MEMORY
+        else:
+            raise ValueError(f"不支持的队列类型: {self.config.queue_type}")
+    async def _create_queue(self, queue_type: QueueType):
+        """Create queue instance"""
+        if queue_type == QueueType.REDIS:
+            # 延迟导入Redis队列
+            try:
+                from crawlo.queue.redis_priority_queue import RedisPriorityQueue
+            except ImportError as e:
+                raise RuntimeError(f"Redis队列不可用：未能导入RedisPriorityQueue ({e})")
+            # 修复项目名称提取逻辑，严格按照测试文件中的逻辑实现
+            project_name = "default"
+            if ':' in self.config.queue_name:
+                parts = self.config.queue_name.split(':')
+                if len(parts) >= 2:
+                    # 处理可能的双重 crawlo 前缀
+                    if parts[0] == "crawlo" and parts[1] == "crawlo":
+                        # 双重 crawlo 前缀，取"crawlo"作为项目名称
+                        project_name = "crawlo"
+                    elif parts[0] == "crawlo":
+                        # 正常的 crawlo 前缀，取第二个部分作为项目名称
+                        project_name = parts[1]
+                    else:
+                        # 没有 crawlo 前缀，使用第一个部分作为项目名称
+                        project_name = parts[0]
+                else:
+                    project_name = self.config.queue_name or "default"
+            else:
+                project_name = self.config.queue_name or "default"
+            queue = RedisPriorityQueue(
+                redis_url=self.config.redis_url,
+                queue_name=self.config.queue_name,
+                max_retries=self.config.max_retries,
+                timeout=self.config.timeout,
+                module_name=project_name  # 传递项目名称作为module_name
+            )
+            # 不需要立即连接，使用 lazy connect
+            return queue
+        elif queue_type == QueueType.MEMORY:
+            queue = SpiderPriorityQueue()
+            # 为内存队列设置背压控制
+            self._queue_semaphore = asyncio.Semaphore(self.config.max_queue_size)
+            return queue
+        else:
+            raise ValueError(f"不支持的队列类型: {queue_type}")
+    async def _health_check(self) -> bool:
+        """Health check"""
+        try:
+            if self._queue_type == QueueType.REDIS:
+                # 测试 Redis 连接
+                await self._queue.connect()
+                self._health_status = "healthy"
+            else:
+                # 内存队列总是健康的
+                self._health_status = "healthy"
+                return False  # 内存队列不需要更新配置
+        except Exception as e:
+            self.logger.warning(f"Queue health check failed: {e}")
+            self._health_status = "unhealthy"
+            # Distributed 模式下 Redis 健康检查失败应该报错
+            if self.config.run_mode == 'distributed':
+                error_msg = (
+                    f"Distributed 模式下 Redis 健康检查失败。\n"
+                    f"错误信息: {e}\n"
+                    f"Redis URL: {self.config.redis_url}\n"
+                    f"分布式模式不允许降级到内存队列，请修复 Redis 连接问题。"
+                )
+                self.logger.error(error_msg)
+                raise RuntimeError(error_msg) from e
+            # 非 Distributed 模式：如果是Redis队列且健康检查失败，尝试切换到内存队列
+            # 对于 AUTO 模式允许回退
+            if self._queue_type == QueueType.REDIS and self.config.queue_type == QueueType.AUTO:
+                self.logger.info("Redis queue unavailable, attempting to switch to memory queue...")
+                try:
+                    await self._queue.close()
+                except:
+                    pass
+                self._queue = None
+                # 重新创建内存队列
+                self._queue = await self._create_queue(QueueType.MEMORY)
+                self._queue_type = QueueType.MEMORY
+                self._queue_semaphore = asyncio.Semaphore(self.config.max_queue_size)
+                self._health_status = "healthy"
+                self.logger.info("Switched to memory queue")
+                # 返回一个信号，表示需要更新过滤器和去重管道配置
+                return True
+        return False
+    def _get_queue_info(self) -> Dict[str, Any]:
+        """Get queue configuration information"""
+        info = {
+            "queue_name": self.config.queue_name,
+            "max_queue_size": self.config.max_queue_size
+        }
+        if self._queue_type == QueueType.REDIS:
+            info.update({
+                "redis_url": self.config.redis_url,
+                "max_retries": self.config.max_retries,
+                "timeout": self.config.timeout
+            })
+        return info

crawlo 1.4.5__py3-none-any.whl → 1.4.7__py3-none-any.whl

Potentially problematic release.

crawlo 1.4.5py3-none-any.whl → 1.4.7py3-none-any.whl