PyPI - crawlo - Versions diffs - 1.4.6__py3-none-any.whl → 1.4.8__py3-none-any.whl - Mend

crawlo 1.4.6py3-none-any.whl → 1.4.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of crawlo might be problematic. Click here for more details.

Files changed (162) hide show

crawlo/__init__.py +2 -1
crawlo/__version__.py +1 -1
crawlo/cli.py +2 -2
crawlo/commands/check.py +1 -1
crawlo/commands/help.py +5 -3
crawlo/commands/list.py +1 -1
crawlo/commands/run.py +49 -11
crawlo/commands/stats.py +1 -1
crawlo/config.py +12 -4
crawlo/config_validator.py +1 -1
crawlo/core/engine.py +20 -7
crawlo/core/processor.py +1 -1
crawlo/core/scheduler.py +4 -5
crawlo/crawler.py +51 -10
crawlo/downloader/__init__.py +7 -3
crawlo/downloader/aiohttp_downloader.py +18 -18
crawlo/downloader/cffi_downloader.py +5 -2
crawlo/downloader/httpx_downloader.py +9 -3
crawlo/downloader/hybrid_downloader.py +2 -2
crawlo/downloader/playwright_downloader.py +38 -15
crawlo/downloader/selenium_downloader.py +16 -2
crawlo/event.py +42 -8
crawlo/exceptions.py +157 -24
crawlo/extension/__init__.py +10 -9
crawlo/extension/health_check.py +7 -7
crawlo/extension/log_interval.py +6 -6
crawlo/extension/log_stats.py +2 -2
crawlo/extension/logging_extension.py +4 -12
crawlo/extension/memory_monitor.py +5 -5
crawlo/extension/performance_profiler.py +5 -5
crawlo/extension/request_recorder.py +6 -6
crawlo/factories/base.py +1 -1
crawlo/factories/crawler.py +61 -60
crawlo/factories/utils.py +135 -0
crawlo/filters/__init__.py +19 -2
crawlo/filters/aioredis_filter.py +133 -49
crawlo/filters/memory_filter.py +6 -21
crawlo/framework.py +22 -8
crawlo/initialization/built_in.py +24 -67
crawlo/initialization/core.py +65 -19
crawlo/initialization/phases.py +83 -2
crawlo/initialization/registry.py +5 -7
crawlo/initialization/utils.py +49 -0
crawlo/logging/__init__.py +6 -10
crawlo/logging/config.py +106 -22
crawlo/logging/factory.py +12 -8
crawlo/logging/manager.py +19 -27
crawlo/middleware/__init__.py +72 -9
crawlo/middleware/default_header.py +2 -2
crawlo/middleware/download_delay.py +2 -2
crawlo/middleware/middleware_manager.py +6 -6
crawlo/middleware/offsite.py +2 -2
crawlo/middleware/proxy.py +2 -2
crawlo/middleware/request_ignore.py +4 -4
crawlo/middleware/response_code.py +2 -2
crawlo/middleware/response_filter.py +2 -2
crawlo/middleware/retry.py +1 -1
crawlo/mode_manager.py +38 -4
crawlo/network/request.py +54 -26
crawlo/network/response.py +69 -135
crawlo/pipelines/__init__.py +40 -9
crawlo/pipelines/base_pipeline.py +452 -0
crawlo/pipelines/bloom_dedup_pipeline.py +4 -5
crawlo/pipelines/console_pipeline.py +2 -2
crawlo/pipelines/csv_pipeline.py +4 -4
crawlo/pipelines/database_dedup_pipeline.py +4 -5
crawlo/pipelines/json_pipeline.py +4 -4
crawlo/pipelines/memory_dedup_pipeline.py +4 -5
crawlo/pipelines/mongo_pipeline.py +23 -14
crawlo/pipelines/mysql_pipeline.py +31 -39
crawlo/pipelines/pipeline_manager.py +8 -8
crawlo/pipelines/redis_dedup_pipeline.py +13 -14
crawlo/project.py +1 -1
crawlo/queue/__init__.py +10 -0
crawlo/queue/queue_manager.py +79 -13
crawlo/queue/redis_priority_queue.py +196 -47
crawlo/settings/default_settings.py +16 -6
crawlo/spider/__init__.py +6 -5
crawlo/stats_collector.py +2 -2
crawlo/task_manager.py +1 -1
crawlo/templates/crawlo.cfg.tmpl +3 -3
crawlo/templates/project/__init__.py.tmpl +1 -3
crawlo/templates/project/items.py.tmpl +2 -6
crawlo/templates/project/middlewares.py.tmpl +1 -1
crawlo/templates/project/pipelines.py.tmpl +1 -2
crawlo/templates/project/settings.py.tmpl +12 -10
crawlo/templates/project/settings_distributed.py.tmpl +14 -13
crawlo/templates/project/settings_gentle.py.tmpl +21 -23
crawlo/templates/project/settings_high_performance.py.tmpl +21 -23
crawlo/templates/project/settings_minimal.py.tmpl +10 -8
crawlo/templates/project/settings_simple.py.tmpl +21 -23
crawlo/templates/run.py.tmpl +1 -1
crawlo/templates/spider/spider.py.tmpl +4 -12
crawlo/templates/spiders_init.py.tmpl +3 -8
crawlo/tools/__init__.py +0 -103
crawlo/tools/scenario_adapter.py +1 -1
crawlo/utils/__init__.py +25 -1
crawlo/utils/batch_processor.py +23 -6
crawlo/utils/config_manager.py +442 -0
crawlo/utils/controlled_spider_mixin.py +1 -1
crawlo/utils/db_helper.py +1 -1
crawlo/utils/encoding_helper.py +190 -0
crawlo/utils/error_handler.py +2 -2
crawlo/utils/large_scale_helper.py +1 -1
crawlo/utils/leak_detector.py +335 -0
crawlo/utils/mongo_connection_pool.py +157 -0
crawlo/utils/mysql_connection_pool.py +197 -0
crawlo/utils/performance_monitor.py +1 -1
crawlo/utils/redis_checker.py +91 -0
crawlo/utils/redis_connection_pool.py +260 -70
crawlo/utils/redis_key_validator.py +1 -1
crawlo/utils/request.py +24 -2
crawlo/utils/request_serializer.py +1 -1
crawlo/utils/resource_manager.py +337 -0
crawlo/utils/response_helper.py +113 -0
crawlo/utils/selector_helper.py +3 -2
crawlo/utils/singleton.py +70 -0
crawlo/utils/spider_loader.py +1 -1
crawlo/utils/text_helper.py +1 -1
crawlo-1.4.8.dist-info/METADATA +831 -0
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/RECORD +131 -145
tests/advanced_tools_example.py +10 -68
tests/distributed_dedup_test.py +467 -0
tests/monitor_redis_dedup.sh +72 -0
tests/ofweek_scrapy/ofweek_scrapy/spiders/__init__.py +4 -4
tests/simple_cli_test.py +55 -0
tests/test_cli_arguments.py +119 -0
tests/test_dedup_fix.py +10 -10
crawlo/logging/async_handler.py +0 -181
crawlo/logging/monitor.py +0 -153
crawlo/logging/sampler.py +0 -167
crawlo/tools/authenticated_proxy.py +0 -241
crawlo/tools/data_formatter.py +0 -226
crawlo/tools/data_validator.py +0 -181
crawlo/tools/encoding_converter.py +0 -127
crawlo/tools/network_diagnostic.py +0 -365
crawlo/tools/request_tools.py +0 -83
crawlo/tools/retry_mechanism.py +0 -224
crawlo/utils/env_config.py +0 -143
crawlo/utils/large_scale_config.py +0 -287
crawlo/utils/log.py +0 -80
crawlo/utils/system.py +0 -11
crawlo/utils/tools.py +0 -5
crawlo/utils/url.py +0 -40
crawlo-1.4.6.dist-info/METADATA +0 -329
tests/env_config_example.py +0 -134
tests/ofweek_scrapy/ofweek_scrapy/spiders/ofweek_spider.py +0 -162
tests/test_authenticated_proxy.py +0 -142
tests/test_comprehensive.py +0 -147
tests/test_dynamic_downloaders_proxy.py +0 -125
tests/test_dynamic_proxy.py +0 -93
tests/test_dynamic_proxy_config.py +0 -147
tests/test_dynamic_proxy_real.py +0 -110
tests/test_env_config.py +0 -122
tests/test_framework_env_usage.py +0 -104
tests/test_large_scale_config.py +0 -113
tests/test_proxy_api.py +0 -265
tests/test_real_scenario_proxy.py +0 -196
tests/tools_example.py +0 -261
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/WHEEL +0 -0
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/entry_points.txt +0 -0
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/top_level.txt +0 -0

crawlo/filters/aioredis_filter.py CHANGED Viewed

@@ -1,10 +1,19 @@
-from typing import Optional
+from typing import Optional, Dict, Any, Union, Awaitable, Literal
 import redis.asyncio as aioredis
+import asyncio
+from inspect import iscoroutinefunction
+# 尝试导入Redis集群支持
+try:
+    from redis.asyncio.cluster import RedisCluster
+    REDIS_CLUSTER_AVAILABLE = True
+except ImportError:
+    RedisCluster = None
+    REDIS_CLUSTER_AVAILABLE = False
 from crawlo.filters import BaseFilter
-from crawlo.utils.log import get_logger
-from crawlo.utils.request import request_fingerprint
-from crawlo.utils.redis_connection_pool import get_redis_pool
+from crawlo.logging import get_logger
+from crawlo.utils.redis_connection_pool import get_redis_pool, RedisConnectionPool
 class AioRedisFilter(BaseFilter):
@@ -16,20 +25,16 @@ class AioRedisFilter(BaseFilter):
     - TTL 自动过期清理机制
     - Pipeline 批量操作优化性能
     - 容错设计和连接池管理
-    适用场景:
-    - 分布式爬虫系统
-    - 大规模数据处理
-    - 需要持久化去重的场景
+    - Redis集群支持
     """
     def __init__(
             self,
             redis_key: str,
-            client: aioredis.Redis,
-            stats: dict,
+            client: Optional[aioredis.Redis] = None,
+            stats: Optional[Dict[str, Any]] = None,
             debug: bool = False,
-            log_level: str = 'INFO',
+            log_level: int = 20,  # logging.INFO
             cleanup_fp: bool = False,
             ttl: Optional[int] = None
     ):
@@ -44,7 +49,7 @@ class AioRedisFilter(BaseFilter):
         :param cleanup_fp: 关闭时是否清理指纹
         :param ttl: 指纹过期时间（秒）
         """
-        self.logger = get_logger(self.__class__.__name__, log_level)
+        self.logger = get_logger(self.__class__.__name__)
         super().__init__(self.logger, stats, debug)
         self.redis_key = redis_key
@@ -53,7 +58,7 @@ class AioRedisFilter(BaseFilter):
         self.ttl = ttl
         # 保存连接池引用（用于延迟初始化）
-        self._redis_pool = None
+        self._redis_pool: Optional[RedisConnectionPool] = None
         # 性能计数器
         self._redis_operations = 0
@@ -105,7 +110,7 @@ class AioRedisFilter(BaseFilter):
             cleanup_fp=crawler.settings.get_bool('CLEANUP_FP', False),
             ttl=ttl,
             debug=crawler.settings.get_bool('FILTER_DEBUG', False),
-            log_level=crawler.settings.get('LOG_LEVEL', 'INFO')
+            log_level=getattr(crawler.settings, 'LOG_LEVEL_NUM', 20)  # 默认INFO级别
         )
         # 保存连接池引用，以便在需要时获取连接
@@ -120,16 +125,41 @@ class AioRedisFilter(BaseFilter):
         if self.redis is None and self._redis_pool is not None:
             try:
-                self.redis = await self._redis_pool.get_connection()
+                connection = await self._redis_pool.get_connection()
+                # 确保返回的是Redis客户端而不是连接池本身
+                if hasattr(connection, 'ping'):
+                    self.redis = connection
+                else:
+                    self.redis = connection
             except Exception as e:
                 self._connection_failed = True
                 self.logger.error(f"Redis连接失败，将使用本地去重: {e}")
                 return None
         return self.redis
-    async def requested(self, request) -> bool:
+    def _is_cluster_mode(self) -> bool:
+        """检查是否为集群模式"""
+        if REDIS_CLUSTER_AVAILABLE and RedisCluster is not None:
+            # 检查 redis 是否为 RedisCluster 实例
+            if self.redis is not None and isinstance(self.redis, RedisCluster):
+                return True
+        return False
+    def requested(self, request) -> bool:
+        """
+        检查请求是否已存在（同步方法）
+        :param request: 请求对象
+        :return: True 表示重复，False 表示新请求
+        """
+        # 这个方法需要同步实现，但Redis操作是异步的
+        # 在实际使用中，应该通过异步方式调用 _requested_async
+        # 由于BaseFilter要求同步方法，我们在这里返回False表示不重复
+        return False
+    async def requested_async(self, request) -> bool:
         """
-        检查请求是否已存在（优化版本）
+        异步检查请求是否已存在
         :param request: 请求对象
         :return: True 表示重复，False 表示新请求
@@ -142,32 +172,38 @@ class AioRedisFilter(BaseFilter):
             if redis_client is None:
                 return False
-            # 使用统一的指纹生成器
-            from crawlo.utils.fingerprint import FingerprintGenerator
-            fp = str(FingerprintGenerator.request_fingerprint(
-                request.method,
-                request.url,
-                request.body or b'',
-                dict(request.headers) if hasattr(request, 'headers') else None
-            ))
+            # 使用基类的指纹生成方法
+            fp = str(self._get_fingerprint(request))
             self._redis_operations += 1
-            # 使用 pipeline 优化性能
-            pipe = redis_client.pipeline()
-            pipe.sismember(self.redis_key, fp)
-            results = await pipe.execute()
-            exists = results[0]
+            # 检查指纹是否存在
+            if self._is_cluster_mode():
+                # 集群模式下使用哈希标签确保键在同一个slot
+                hash_tag = "{filter}"
+                redis_key_with_tag = f"{self.redis_key}{hash_tag}"
+                # 直接调用异步方法
+                result = redis_client.sismember(redis_key_with_tag, fp)
+                if asyncio.iscoroutine(result):
+                    exists = await result
+                else:
+                    exists = result
+            else:
+                # 直接调用异步方法
+                result = redis_client.sismember(self.redis_key, fp)
+                if asyncio.iscoroutine(result):
+                    exists = await result
+                else:
+                    exists = result
             self._pipeline_operations += 1
             if exists:
                 if self.debug:
                     self.logger.debug(f"发现重复请求: {fp[:20]}...")
-                return True
+                return bool(exists)
             # 如果不存在，添加指纹并设置TTL
-            await self.add_fingerprint(fp)
+            await self._add_fingerprint_async(fp)
             return False
         except Exception as e:
@@ -175,9 +211,19 @@ class AioRedisFilter(BaseFilter):
             # 在网络异常时返回False，避免丢失请求
             return False
-    async def add_fingerprint(self, fp: str) -> bool:
+    def add_fingerprint(self, fp: str) -> None:
         """
-        添加新指纹到Redis集合（优化版本）
+        添加新指纹到Redis集合（同步方法）
+        :param fp: 请求指纹字符串
+        """
+        # 这个方法需要同步实现，但Redis操作是异步的
+        # 在实际使用中，应该通过异步方式调用 _add_fingerprint_async
+        pass
+    async def _add_fingerprint_async(self, fp: str) -> bool:
+        """
+        异步添加新指纹到Redis集合
         :param fp: 请求指纹字符串
         :return: 是否成功添加（True 表示新添加，False 表示已存在）
@@ -192,22 +238,44 @@ class AioRedisFilter(BaseFilter):
             fp = str(fp)
-            # 使用 pipeline 优化性能
-            pipe = redis_client.pipeline()
-            pipe.sadd(self.redis_key, fp)
-            if self.ttl and self.ttl > 0:
-                pipe.expire(self.redis_key, self.ttl)
-            results = await pipe.execute()
-            added = results[0] == 1  # sadd 返回 1 表示新添加
+            # 添加指纹
+            if self._is_cluster_mode():
+                # 集群模式下使用哈希标签确保键在同一个slot
+                hash_tag = "{filter}"
+                redis_key_with_tag = f"{self.redis_key}{hash_tag}"
+                # 直接调用异步方法
+                result = redis_client.sadd(redis_key_with_tag, fp)
+                if asyncio.iscoroutine(result):
+                    added = await result
+                else:
+                    added = result
+                if self.ttl and self.ttl > 0:
+                    expire_result = redis_client.expire(redis_key_with_tag, self.ttl)
+                    if asyncio.iscoroutine(expire_result):
+                        await expire_result
+                    else:
+                        expire_result  # 不需要等待同步结果
+                added = added == 1  # sadd 返回 1 表示新添加
+            else:
+                # 直接调用异步方法
+                result = redis_client.sadd(self.redis_key, fp)
+                if asyncio.iscoroutine(result):
+                    added = await result
+                else:
+                    added = result
+                if self.ttl and self.ttl > 0:
+                    expire_result = redis_client.expire(self.redis_key, self.ttl)
+                    if asyncio.iscoroutine(expire_result):
+                        await expire_result
+                    else:
+                        expire_result  # 不需要等待同步结果
             self._pipeline_operations += 1
             if self.debug and added:
                 self.logger.debug(f"添加新指纹: {fp[:20]}...")
-            return added
+            return bool(added)
         except Exception as e:
             self.logger.error(f"添加指纹失败: {fp[:20]}... - {e}")
@@ -252,8 +320,24 @@ class AioRedisFilter(BaseFilter):
                 return False
             # 检查指纹是否存在
-            exists = await redis_client.sismember(self.redis_key, str(fp))
-            return exists
+            if self._is_cluster_mode():
+                # 集群模式下使用哈希标签确保键在同一个slot
+                hash_tag = "{filter}"
+                redis_key_with_tag = f"{self.redis_key}{hash_tag}"
+                # 直接调用异步方法
+                result = redis_client.sismember(redis_key_with_tag, str(fp))
+                if asyncio.iscoroutine(result):
+                    exists = await result
+                else:
+                    exists = result
+            else:
+                # 直接调用异步方法
+                result = redis_client.sismember(self.redis_key, str(fp))
+                if asyncio.iscoroutine(result):
+                    exists = await result
+                else:
+                    exists = result
+            return bool(exists)
         except Exception as e:
             self.logger.error(f"检查指纹存在性失败: {fp[:20]}... - {e}")
             # 在网络异常时返回False，避免丢失请求
@@ -261,4 +345,4 @@ class AioRedisFilter(BaseFilter):
 # 为了兼容性，确保导出类
-__all__ = ['AioRedisFilter']
+__all__ = ['AioRedisFilter']

crawlo/filters/memory_filter.py CHANGED Viewed

@@ -15,8 +15,7 @@ from weakref import WeakSet
 from typing import Set, TextIO, Optional
 from crawlo.filters import BaseFilter
-from crawlo.utils.log import get_logger
-from crawlo.utils.request import request_fingerprint
+from crawlo.logging import get_logger
 class MemoryFilter(BaseFilter):
@@ -47,10 +46,7 @@ class MemoryFilter(BaseFilter):
         # 初始化日志和统计
         debug = crawler.settings.get_bool('FILTER_DEBUG', False)
-        logger = get_logger(
-            self.__class__.__name__,
-            crawler.settings.get('LOG_LEVEL', 'INFO')
-        )
+        logger = get_logger(self.__class__.__name__)
         super().__init__(logger, crawler.stats, debug)
         # 性能计数器
@@ -102,18 +98,10 @@ class MemoryFilter(BaseFilter):
         :return: 是否重复
         """
         with self._lock:
-            # 使用统一的指纹生成器
-            from crawlo.utils.fingerprint import FingerprintGenerator
-            fp = FingerprintGenerator.request_fingerprint(
-                request.method,
-                request.url,
-                request.body or b'',
-                dict(request.headers) if hasattr(request, 'headers') else None
-            )
+            # 使用基类的指纹生成方法
+            fp = self._get_fingerprint(request)
             if fp in self.fingerprints:
                 self._dupe_count += 1
-                # if self.debug:
-                #     self.logger.debug(f"发现重复请求: {fp[:20]}...")  # 注释掉重复的日志
                 return True
             self.add_fingerprint(fp)
@@ -185,17 +173,14 @@ class MemoryFileFilter(BaseFilter):
     def __init__(self, crawler):
         """
         初始化过滤器
-        :param crawler: Scrapy Crawler对象，用于获取配置
+        :param crawler: 爬虫框架Crawler对象，用于获取配置
         """
         self.fingerprints: Set[str] = set()  # 主存储集合
         self._lock = threading.RLock()  # 线程安全锁
         self._file: Optional[TextIO] = None  # 文件句柄
         debug = crawler.settings.get_bool("FILTER_DEBUG", False)
-        logger = get_logger(
-            self.__class__.__name__,  # 使用类名作为日志标识
-            crawler.settings.get("LOG_LEVEL", "INFO")
-        )
+        logger = get_logger(self.__class__.__name__)
         super().__init__(logger, crawler.stats, debug)
         # 初始化文件存储

crawlo/framework.py CHANGED Viewed

@@ -11,10 +11,10 @@ import os
 import sys
 from typing import Type, Optional, List, Union
-from .crawler import ModernCrawler, CrawlerProcess
+from .crawler import Crawler, CrawlerProcess
 from .initialization import initialize_framework
 from .logging import get_logger
-from .utils.env_config import get_version
+from .utils.config_manager import EnvConfigManager
 class CrawloFramework:
@@ -50,7 +50,7 @@ class CrawloFramework:
         self._logger = get_logger('crawlo.framework')
         # 获取版本号
-        version = get_version()
+        version = EnvConfigManager.get_version()
         # 创建进程管理器
         self._process = CrawlerProcess(self._settings)
@@ -195,9 +195,13 @@ class CrawloFramework:
         self._logger.info(f"Starting spiders: {', '.join(spider_names)}")
-        return await self._process.crawl_multiple(spider_classes_or_names, settings)
+        try:
+            return await self._process.crawl_multiple(spider_classes_or_names, settings)
+        finally:
+            # 清理全局Redis连接池
+            await self._cleanup_global_resources()
-    def create_crawler(self, spider_cls: Type, settings=None) -> ModernCrawler:
+    def create_crawler(self, spider_cls: Type, settings=None) -> Crawler:
         """
         创建Crawler实例
@@ -206,10 +210,10 @@ class CrawloFramework:
             settings: 额外配置
         Returns:
-            ModernCrawler实例
+            Crawler实例
         """
         merged_settings = self._merge_settings(settings)
-        return ModernCrawler(spider_cls, merged_settings)
+        return Crawler(spider_cls, merged_settings)
     def _merge_settings(self, additional_settings):
         """合并配置"""
@@ -234,6 +238,16 @@ class CrawloFramework:
     def get_metrics(self) -> dict:
         """获取框架指标"""
         return self._process.get_metrics()
+    async def _cleanup_global_resources(self):
+        """清理全局资源（Redis连接池等）"""
+        try:
+            # 清理全局Redis连接池
+            from crawlo.utils.redis_connection_pool import close_all_pools
+            await close_all_pools()
+            self._logger.debug("Global resources cleaned up")
+        except Exception as e:
+            self._logger.warning(f"Failed to cleanup global resources: {e}")
 # 全局框架实例
@@ -279,7 +293,7 @@ async def run_spiders(spider_classes_or_names: List[Union[Type, str]],
     return await framework.run_multiple(spider_classes_or_names)
-def create_crawler(spider_cls: Type, settings=None, **kwargs) -> ModernCrawler:
+def create_crawler(spider_cls: Type, settings=None, **kwargs) -> Crawler:
     """创建Crawler的便捷函数"""
     framework = get_framework(settings, **kwargs)
     return framework.create_crawler(spider_cls)

crawlo/initialization/built_in.py CHANGED Viewed

@@ -5,10 +5,15 @@
 """
 import time
+from typing import TYPE_CHECKING
 from .registry import BaseInitializer, register_initializer
 from .phases import InitializationPhase, PhaseResult
 from .context import InitializationContext
+if TYPE_CHECKING:
+    from crawlo.logging import LogConfig
 class LoggingInitializer(BaseInitializer):
     """日志系统初始化器"""
@@ -28,7 +33,7 @@ class LoggingInitializer(BaseInitializer):
             log_config = self._get_log_config(context)
             # 确保日志目录存在
-            if log_config.file_path and log_config.file_enabled:
+            if log_config and log_config.file_path and log_config.file_enabled:
                 import os
                 log_dir = os.path.dirname(log_config.file_path)
                 if log_dir and not os.path.exists(log_dir):
@@ -58,7 +63,7 @@ class LoggingInitializer(BaseInitializer):
                 error=e
             )
-    def _get_log_config(self, context: InitializationContext) -> 'LogConfig':
+    def _get_log_config(self, context: InitializationContext) -> 'LogConfig | None':
         """
         获取日志配置
@@ -70,6 +75,7 @@ class LoggingInitializer(BaseInitializer):
         """
         # 导入日志配置类
         from crawlo.logging import LogConfig
+        from crawlo.utils.config_manager import ConfigUtils
         # 按优先级获取配置：自定义配置 > 上下文配置 > 项目配置 > 默认配置
         config_sources = [
@@ -80,7 +86,7 @@ class LoggingInitializer(BaseInitializer):
         # 遍历配置源
         for config_source in config_sources:
-            if config_source:
+            if config_source and ConfigUtils.has_config_prefix(config_source, 'LOG_'):
                 log_config = self._create_log_config_from_source(config_source)
                 if log_config:
                     return log_config
@@ -88,7 +94,7 @@ class LoggingInitializer(BaseInitializer):
         # 使用默认配置
         return LogConfig()
-    def _create_log_config_from_source(self, config_source) -> 'LogConfig':
+    def _create_log_config_from_source(self, config_source) -> 'LogConfig | None':
         """
         从配置源创建日志配置
@@ -100,30 +106,25 @@ class LoggingInitializer(BaseInitializer):
         """
         # 导入日志配置类
         from crawlo.logging import LogConfig
+        from crawlo.utils.config_manager import ConfigUtils
         # 检查配置源是否有效
         if not config_source:
             return None
         # 检查是否有日志相关配置
-        has_keys_method = hasattr(config_source, 'keys')
-        if has_keys_method:
-            has_log_config = any(key.startswith('LOG_') for key in config_source.keys())
-        else:
-            has_log_config = any(key.startswith('LOG_') for key in dir(config_source))
-        if not has_log_config:
+        if not ConfigUtils.has_config_prefix(config_source, 'LOG_'):
             return None
         # 从配置源获取日志配置
-        log_level = config_source.get('LOG_LEVEL', 'INFO')
-        log_file = config_source.get('LOG_FILE')
-        log_format = config_source.get('LOG_FORMAT', '%(asctime)s - [%(name)s] - %(levelname)s: %(message)s')
-        log_encoding = config_source.get('LOG_ENCODING', 'utf-8')
-        log_max_bytes = config_source.get('LOG_MAX_BYTES', 10 * 1024 * 1024)
-        log_backup_count = config_source.get('LOG_BACKUP_COUNT', 5)
-        log_console_enabled = config_source.get('LOG_CONSOLE_ENABLED', True)
-        log_file_enabled = config_source.get('LOG_FILE_ENABLED', True)
+        log_level = ConfigUtils.get_config_value([config_source], 'LOG_LEVEL', 'INFO')
+        log_file = ConfigUtils.get_config_value([config_source], 'LOG_FILE')
+        log_format = ConfigUtils.get_config_value([config_source], 'LOG_FORMAT', '%(asctime)s - [%(name)s] - %(levelname)s: %(message)s')
+        log_encoding = ConfigUtils.get_config_value([config_source], 'LOG_ENCODING', 'utf-8')
+        log_max_bytes = ConfigUtils.get_config_value([config_source], 'LOG_MAX_BYTES', 10 * 1024 * 1024, int)
+        log_backup_count = ConfigUtils.get_config_value([config_source], 'LOG_BACKUP_COUNT', 5, int)
+        log_console_enabled = ConfigUtils.get_config_value([config_source], 'LOG_CONSOLE_ENABLED', True, bool)
+        log_file_enabled = ConfigUtils.get_config_value([config_source], 'LOG_FILE_ENABLED', True, bool)
         # 创建日志配置
         return LogConfig(
@@ -176,10 +177,8 @@ class LoggingInitializer(BaseInitializer):
                         settings_module = importlib.import_module(settings_module_path)
                         # 创建配置字典
-                        project_config = {}
-                        for key in dir(settings_module):
-                            if key.isupper():
-                                project_config[key] = getattr(settings_module, key)
+                        from crawlo.utils.config_manager import ConfigUtils
+                        project_config = ConfigUtils.merge_config_sources([settings_module])
                         return project_config
@@ -268,50 +267,8 @@ class CoreComponentsInitializer(BaseInitializer):
                 error=e
             )
-    def _initialize_engine(self, context: InitializationContext):
-        """初始化引擎"""
-        try:
-            # 注意：Engine需要crawler参数，不能在此阶段初始化
-            pass
-        except Exception as e:
-            context.add_error(f"Failed to initialize engine: {e}")
-            raise
-    def _initialize_scheduler(self, context: InitializationContext):
-        """初始化调度器"""
-        try:
-            # 注意：Scheduler需要很多参数，不能在此阶段初始化
-            pass
-        except Exception as e:
-            context.add_error(f"Failed to initialize scheduler: {e}")
-            raise
-    def _initialize_downloader(self, context: InitializationContext):
-        """初始化下载器"""
-        try:
-            # 注意：下载器类需要crawler参数，不能在此阶段初始化实例
-            pass
-        except Exception as e:
-            context.add_error(f"Failed to initialize downloader: {e}")
-            raise
-    def _initialize_pipeline_manager(self, context: InitializationContext):
-        """初始化管道管理器"""
-        try:
-            # 注意：PipelineManager需要crawler参数，不能在此阶段初始化
-            pass
-        except Exception as e:
-            context.add_error(f"Failed to initialize pipeline manager: {e}")
-            raise
-    def _initialize_middleware_manager(self, context: InitializationContext):
-        """初始化中间件管理器"""
-        try:
-            # 注意：MiddlewareManager需要crawler参数，不能在此阶段初始化
-            pass
-        except Exception as e:
-            context.add_error(f"Failed to initialize middleware manager: {e}")
-            raise
+# 注意：核心组件需要crawler参数，不能在此阶段初始化
+        # 实际初始化将在crawler创建时进行
 class ExtensionsInitializer(BaseInitializer):

crawlo 1.4.6__py3-none-any.whl → 1.4.8__py3-none-any.whl

Potentially problematic release.

crawlo 1.4.6py3-none-any.whl → 1.4.8py3-none-any.whl