PyPI - crawlo - Versions diffs - 1.4.6__py3-none-any.whl → 1.4.8__py3-none-any.whl - Mend

crawlo 1.4.6py3-none-any.whl → 1.4.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of crawlo might be problematic. Click here for more details.

Files changed (162) hide show

crawlo/__init__.py +2 -1
crawlo/__version__.py +1 -1
crawlo/cli.py +2 -2
crawlo/commands/check.py +1 -1
crawlo/commands/help.py +5 -3
crawlo/commands/list.py +1 -1
crawlo/commands/run.py +49 -11
crawlo/commands/stats.py +1 -1
crawlo/config.py +12 -4
crawlo/config_validator.py +1 -1
crawlo/core/engine.py +20 -7
crawlo/core/processor.py +1 -1
crawlo/core/scheduler.py +4 -5
crawlo/crawler.py +51 -10
crawlo/downloader/__init__.py +7 -3
crawlo/downloader/aiohttp_downloader.py +18 -18
crawlo/downloader/cffi_downloader.py +5 -2
crawlo/downloader/httpx_downloader.py +9 -3
crawlo/downloader/hybrid_downloader.py +2 -2
crawlo/downloader/playwright_downloader.py +38 -15
crawlo/downloader/selenium_downloader.py +16 -2
crawlo/event.py +42 -8
crawlo/exceptions.py +157 -24
crawlo/extension/__init__.py +10 -9
crawlo/extension/health_check.py +7 -7
crawlo/extension/log_interval.py +6 -6
crawlo/extension/log_stats.py +2 -2
crawlo/extension/logging_extension.py +4 -12
crawlo/extension/memory_monitor.py +5 -5
crawlo/extension/performance_profiler.py +5 -5
crawlo/extension/request_recorder.py +6 -6
crawlo/factories/base.py +1 -1
crawlo/factories/crawler.py +61 -60
crawlo/factories/utils.py +135 -0
crawlo/filters/__init__.py +19 -2
crawlo/filters/aioredis_filter.py +133 -49
crawlo/filters/memory_filter.py +6 -21
crawlo/framework.py +22 -8
crawlo/initialization/built_in.py +24 -67
crawlo/initialization/core.py +65 -19
crawlo/initialization/phases.py +83 -2
crawlo/initialization/registry.py +5 -7
crawlo/initialization/utils.py +49 -0
crawlo/logging/__init__.py +6 -10
crawlo/logging/config.py +106 -22
crawlo/logging/factory.py +12 -8
crawlo/logging/manager.py +19 -27
crawlo/middleware/__init__.py +72 -9
crawlo/middleware/default_header.py +2 -2
crawlo/middleware/download_delay.py +2 -2
crawlo/middleware/middleware_manager.py +6 -6
crawlo/middleware/offsite.py +2 -2
crawlo/middleware/proxy.py +2 -2
crawlo/middleware/request_ignore.py +4 -4
crawlo/middleware/response_code.py +2 -2
crawlo/middleware/response_filter.py +2 -2
crawlo/middleware/retry.py +1 -1
crawlo/mode_manager.py +38 -4
crawlo/network/request.py +54 -26
crawlo/network/response.py +69 -135
crawlo/pipelines/__init__.py +40 -9
crawlo/pipelines/base_pipeline.py +452 -0
crawlo/pipelines/bloom_dedup_pipeline.py +4 -5
crawlo/pipelines/console_pipeline.py +2 -2
crawlo/pipelines/csv_pipeline.py +4 -4
crawlo/pipelines/database_dedup_pipeline.py +4 -5
crawlo/pipelines/json_pipeline.py +4 -4
crawlo/pipelines/memory_dedup_pipeline.py +4 -5
crawlo/pipelines/mongo_pipeline.py +23 -14
crawlo/pipelines/mysql_pipeline.py +31 -39
crawlo/pipelines/pipeline_manager.py +8 -8
crawlo/pipelines/redis_dedup_pipeline.py +13 -14
crawlo/project.py +1 -1
crawlo/queue/__init__.py +10 -0
crawlo/queue/queue_manager.py +79 -13
crawlo/queue/redis_priority_queue.py +196 -47
crawlo/settings/default_settings.py +16 -6
crawlo/spider/__init__.py +6 -5
crawlo/stats_collector.py +2 -2
crawlo/task_manager.py +1 -1
crawlo/templates/crawlo.cfg.tmpl +3 -3
crawlo/templates/project/__init__.py.tmpl +1 -3
crawlo/templates/project/items.py.tmpl +2 -6
crawlo/templates/project/middlewares.py.tmpl +1 -1
crawlo/templates/project/pipelines.py.tmpl +1 -2
crawlo/templates/project/settings.py.tmpl +12 -10
crawlo/templates/project/settings_distributed.py.tmpl +14 -13
crawlo/templates/project/settings_gentle.py.tmpl +21 -23
crawlo/templates/project/settings_high_performance.py.tmpl +21 -23
crawlo/templates/project/settings_minimal.py.tmpl +10 -8
crawlo/templates/project/settings_simple.py.tmpl +21 -23
crawlo/templates/run.py.tmpl +1 -1
crawlo/templates/spider/spider.py.tmpl +4 -12
crawlo/templates/spiders_init.py.tmpl +3 -8
crawlo/tools/__init__.py +0 -103
crawlo/tools/scenario_adapter.py +1 -1
crawlo/utils/__init__.py +25 -1
crawlo/utils/batch_processor.py +23 -6
crawlo/utils/config_manager.py +442 -0
crawlo/utils/controlled_spider_mixin.py +1 -1
crawlo/utils/db_helper.py +1 -1
crawlo/utils/encoding_helper.py +190 -0
crawlo/utils/error_handler.py +2 -2
crawlo/utils/large_scale_helper.py +1 -1
crawlo/utils/leak_detector.py +335 -0
crawlo/utils/mongo_connection_pool.py +157 -0
crawlo/utils/mysql_connection_pool.py +197 -0
crawlo/utils/performance_monitor.py +1 -1
crawlo/utils/redis_checker.py +91 -0
crawlo/utils/redis_connection_pool.py +260 -70
crawlo/utils/redis_key_validator.py +1 -1
crawlo/utils/request.py +24 -2
crawlo/utils/request_serializer.py +1 -1
crawlo/utils/resource_manager.py +337 -0
crawlo/utils/response_helper.py +113 -0
crawlo/utils/selector_helper.py +3 -2
crawlo/utils/singleton.py +70 -0
crawlo/utils/spider_loader.py +1 -1
crawlo/utils/text_helper.py +1 -1
crawlo-1.4.8.dist-info/METADATA +831 -0
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/RECORD +131 -145
tests/advanced_tools_example.py +10 -68
tests/distributed_dedup_test.py +467 -0
tests/monitor_redis_dedup.sh +72 -0
tests/ofweek_scrapy/ofweek_scrapy/spiders/__init__.py +4 -4
tests/simple_cli_test.py +55 -0
tests/test_cli_arguments.py +119 -0
tests/test_dedup_fix.py +10 -10
crawlo/logging/async_handler.py +0 -181
crawlo/logging/monitor.py +0 -153
crawlo/logging/sampler.py +0 -167
crawlo/tools/authenticated_proxy.py +0 -241
crawlo/tools/data_formatter.py +0 -226
crawlo/tools/data_validator.py +0 -181
crawlo/tools/encoding_converter.py +0 -127
crawlo/tools/network_diagnostic.py +0 -365
crawlo/tools/request_tools.py +0 -83
crawlo/tools/retry_mechanism.py +0 -224
crawlo/utils/env_config.py +0 -143
crawlo/utils/large_scale_config.py +0 -287
crawlo/utils/log.py +0 -80
crawlo/utils/system.py +0 -11
crawlo/utils/tools.py +0 -5
crawlo/utils/url.py +0 -40
crawlo-1.4.6.dist-info/METADATA +0 -329
tests/env_config_example.py +0 -134
tests/ofweek_scrapy/ofweek_scrapy/spiders/ofweek_spider.py +0 -162
tests/test_authenticated_proxy.py +0 -142
tests/test_comprehensive.py +0 -147
tests/test_dynamic_downloaders_proxy.py +0 -125
tests/test_dynamic_proxy.py +0 -93
tests/test_dynamic_proxy_config.py +0 -147
tests/test_dynamic_proxy_real.py +0 -110
tests/test_env_config.py +0 -122
tests/test_framework_env_usage.py +0 -104
tests/test_large_scale_config.py +0 -113
tests/test_proxy_api.py +0 -265
tests/test_real_scenario_proxy.py +0 -196
tests/tools_example.py +0 -261
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/WHEEL +0 -0
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/entry_points.txt +0 -0
{crawlo-1.4.6.dist-info → crawlo-1.4.8.dist-info}/top_level.txt +0 -0

crawlo/templates/project/settings_distributed.py.tmpl CHANGED Viewed

@@ -30,12 +30,10 @@ locals().update(config.to_dict())
 # 爬虫模块配置
 SPIDER_MODULES = ['{{project_name}}.spiders']
-# 默认请求头配置
-# 为DefaultHeaderMiddleware配置默认请求头
+# 默认请求头
 # DEFAULT_REQUEST_HEADERS = {}
 # 允许的域名
-# 为OffsiteMiddleware配置允许的域名
 # ALLOWED_DOMAINS = []
 # 数据管道
@@ -63,6 +61,10 @@ SPIDER_MODULES = ['{{project_name}}.spiders']
 LOG_LEVEL = 'INFO'
 LOG_FILE = 'logs/{{project_name}}.log'
 LOG_ENCODING = 'utf-8'  # 明确指定日志文件编码
+LOG_MAX_BYTES = 20 * 1024 * 1024  # 20MB，推荐值
+LOG_BACKUP_COUNT = 10  # 10个备份文件，推荐值
+# 如果不想要日志轮转，可以设置 LOG_MAX_BYTES = 0
+# 当LOG_MAX_BYTES或LOG_BACKUP_COUNT为0时，日志轮转将被禁用，文件会持续增长
 STATS_DUMP = True
 # 输出配置
@@ -108,10 +110,10 @@ MONGO_USE_BATCH = True  # 是否启用批量插入
 # =================================== 浏览器指纹模拟 ===================================
-# 浏览器指纹模拟（仅 CurlCffi 下载器有效）
-CURL_BROWSER_TYPE = "chrome"  # 可选: chrome, edge, safari, firefox 或版本如 chrome136
+# 浏览器指纹模拟（仅CurlCffiDownloader有效）
+CURL_BROWSER_TYPE = "chrome"  # 可选：chrome/edge/safari/firefox
-# 自定义浏览器版本映射（可覆盖默认行为）
+# 自定义浏览器版本映射
 CURL_BROWSER_VERSION_MAP = {
     "chrome": "chrome136",
     "edge": "edge101",
@@ -129,11 +131,11 @@ HEALTH_CHECK_INTERVAL = 60  # 健康检查间隔（秒）
 REQUEST_STATS_ENABLED = True  # 是否启用请求统计
 STATS_RESET_ON_START = False  # 启动时是否重置统计
-# HttpX 下载器专用配置
+# HttpX专用配置
 HTTPX_HTTP2 = True  # 是否启用HTTP/2支持
 HTTPX_FOLLOW_REDIRECTS = True  # 是否自动跟随重定向
-# AioHttp 下载器专用配置
+# AioHttp专用配置
 AIOHTTP_AUTO_DECOMPRESS = True  # 是否自动解压响应
 AIOHTTP_FORCE_CLOSE = False  # 是否强制关闭连接
@@ -143,17 +145,16 @@ CONNECTION_KEEPALIVE_TIMEOUT = 15  # Keep-Alive超时（秒）
 # =================================== 代理配置 ===================================
-# 简化版代理配置（适用于SimpleProxyMiddleware）
-# 只要配置了代理列表，中间件就会自动启用
+# 简单代理（SimpleProxyMiddleware）
+# 配置代理列表后中间件自动启用
 # PROXY_LIST = ["http://proxy1:8080", "http://proxy2:8080"]
-# 高级代理配置（适用于ProxyMiddleware）
-# 只要配置了代理API URL，中间件就会自动启用
+# 动态代理（ProxyMiddleware）
+# 配置代理API URL后中间件自动启用
 # PROXY_API_URL = "http://your-proxy-api.com/get-proxy"
 # =================================== 内存监控配置 ===================================
-# 内存监控扩展默认不启用，如需使用请在项目配置文件中启用
 MEMORY_MONITOR_ENABLED = False  # 是否启用内存监控
 MEMORY_MONITOR_INTERVAL = 60  # 内存监控检查间隔（秒）
 MEMORY_WARNING_THRESHOLD = 80.0  # 内存使用率警告阈值（百分比）

crawlo/templates/project/settings_gentle.py.tmpl CHANGED Viewed

@@ -11,7 +11,7 @@
 # 项目基本信息
 PROJECT_NAME = '{{project_name}}'
-# 运行模式
+# 运行模式：standalone/distributed/auto
 RUN_MODE = 'standalone'
 # 并发配置
@@ -23,16 +23,16 @@ RANDOM_RANGE = [0.5, 1.5]  # 随机延迟范围因子
 # =================================== 核心组件配置 ===================================
-# 下载器配置
+# 下载器：AioHttpDownloader/HttpXDownloader/CurlCffiDownloader
 DOWNLOADER = 'crawlo.downloader.aiohttp_downloader.AioHttpDownloader'
-# 队列配置
+# 队列类型：memory/redis/auto
 QUEUE_TYPE = 'memory'
-# 去重过滤器
+# 去重过滤器：MemoryFilter/AioRedisFilter
 FILTER_CLASS = 'crawlo.filters.memory_filter.MemoryFilter'
-# 默认去重管道
+# 默认去重管道：MemoryDedupPipeline/RedisDedupPipeline
 DEFAULT_DEDUP_PIPELINE = 'crawlo.pipelines.memory_dedup_pipeline.MemoryDedupPipeline'
 # =================================== 爬虫配置 ===================================
@@ -40,12 +40,10 @@ DEFAULT_DEDUP_PIPELINE = 'crawlo.pipelines.memory_dedup_pipeline.MemoryDedupPipe
 # 爬虫模块配置
 SPIDER_MODULES = ['{{project_name}}.spiders']
-# 默认请求头配置
-# 为DefaultHeaderMiddleware配置默认请求头
+# 默认请求头
 # DEFAULT_REQUEST_HEADERS = {}
 # 允许的域名
-# 为OffsiteMiddleware配置允许的域名
 # ALLOWED_DOMAINS = []
 # 数据管道
@@ -73,6 +71,10 @@ SPIDER_MODULES = ['{{project_name}}.spiders']
 LOG_LEVEL = 'INFO'
 LOG_FILE = 'logs/{{project_name}}.log'
 LOG_ENCODING = 'utf-8'  # 明确指定日志文件编码
+LOG_MAX_BYTES = 20 * 1024 * 1024  # 20MB，推荐值
+LOG_BACKUP_COUNT = 10  # 10个备份文件，推荐值
+# 如果不想要日志轮转，可以设置 LOG_MAX_BYTES = 0
+# 当LOG_MAX_BYTES或LOG_BACKUP_COUNT为0时，日志轮转将被禁用，文件会持续增长
 STATS_DUMP = True
 # 输出配置
@@ -119,28 +121,25 @@ MONGO_USE_BATCH = False  # 是否启用批量插入
 # =================================== 网络配置 ===================================
 # 代理配置
-# 代理功能默认不启用，如需使用请在项目配置文件中启用并配置相关参数
 PROXY_ENABLED = False  # 是否启用代理
-# 简化版代理配置（适用于SimpleProxyMiddleware）
-PROXY_LIST = []  # 代理列表，例如: ["http://proxy1:8080", "http://proxy2:8080"]
+# 简单代理（SimpleProxyMiddleware）
+PROXY_LIST = []  # 代理列表
-# 高级代理配置（适用于ProxyMiddleware）
-PROXY_API_URL = ""  # 代理获取接口（请替换为真实地址）
+# 动态代理（ProxyMiddleware）
+PROXY_API_URL = ""  # 代理API地址
-# 代理提取方式（支持字段路径或函数）
-# 示例: "proxy" 适用于 {"proxy": "http://1.1.1.1:8080"}
-# 示例: "data.proxy" 适用于 {"data": {"proxy": "http://1.1.1.1:8080"}}
+# 代理提取方式："proxy" 或 "data.proxy"
 PROXY_EXTRACTOR = "proxy"
 # 代理刷新控制
 PROXY_REFRESH_INTERVAL = 60  # 代理刷新间隔（秒）
-PROXY_API_TIMEOUT = 10  # 请求代理 API 超时时间
+PROXY_API_TIMEOUT = 10  # API超时时间
-# 浏览器指纹模拟（仅 CurlCffi 下载器有效）
-CURL_BROWSER_TYPE = "chrome"  # 可选: chrome, edge, safari, firefox 或版本如 chrome136
+# 浏览器指纹模拟（仅CurlCffiDownloader有效）
+CURL_BROWSER_TYPE = "chrome"  # 可选：chrome/edge/safari/firefox
-# 自定义浏览器版本映射（可覆盖默认行为）
+# 自定义浏览器版本映射
 CURL_BROWSER_VERSION_MAP = {
     "chrome": "chrome136",
     "edge": "edge101",
@@ -157,11 +156,11 @@ HEALTH_CHECK_INTERVAL = 60  # 健康检查间隔（秒）
 REQUEST_STATS_ENABLED = True  # 是否启用请求统计
 STATS_RESET_ON_START = False  # 启动时是否重置统计
-# HttpX 下载器专用配置
+# HttpX专用配置
 HTTPX_HTTP2 = True  # 是否启用HTTP/2支持
 HTTPX_FOLLOW_REDIRECTS = True  # 是否自动跟随重定向
-# AioHttp 下载器专用配置
+# AioHttp专用配置
 AIOHTTP_AUTO_DECOMPRESS = True  # 是否自动解压响应
 AIOHTTP_FORCE_CLOSE = False  # 是否强制关闭连接
@@ -170,7 +169,6 @@ CONNECTION_TTL_DNS_CACHE = 300  # DNS缓存TTL（秒）
 CONNECTION_KEEPALIVE_TIMEOUT = 15  # Keep-Alive超时（秒）
 # 内存监控配置
-# 内存监控扩展默认不启用，如需使用请在项目配置文件中启用
 MEMORY_MONITOR_ENABLED = False  # 是否启用内存监控
 MEMORY_MONITOR_INTERVAL = 60  # 内存监控检查间隔（秒）
 MEMORY_WARNING_THRESHOLD = 80.0  # 内存使用率警告阈值（百分比）

crawlo/templates/project/settings_high_performance.py.tmpl CHANGED Viewed

@@ -11,7 +11,7 @@
 # 项目基本信息
 PROJECT_NAME = '{{project_name}}'
-# 运行模式
+# 运行模式：standalone/distributed/auto
 RUN_MODE = 'standalone'
 # 并发配置
@@ -22,17 +22,17 @@ RANDOMNESS = False  # 禁用随机延迟以保证性能
 # =================================== 核心组件配置 ===================================
-# 下载器配置
+# 下载器：AioHttpDownloader/HttpXDownloader/CurlCffiDownloader
 DOWNLOADER = 'crawlo.downloader.aiohttp_downloader.AioHttpDownloader'
-# 队列配置
+# 队列类型：memory/redis/auto
 QUEUE_TYPE = 'auto'
-# 去重过滤器
+# 去重过滤器：MemoryFilter/AioRedisFilter
 # 高性能模式下，如果Redis可用则使用Redis去重，否则使用内存去重
 FILTER_CLASS = 'crawlo.filters.aioredis_filter.AioRedisFilter'
-# 默认去重管道
+# 默认去重管道：MemoryDedupPipeline/RedisDedupPipeline
 # 高性能模式下，如果Redis可用则使用Redis去重，否则使用内存去重
 DEFAULT_DEDUP_PIPELINE = 'crawlo.pipelines.redis_dedup_pipeline.RedisDedupPipeline'
@@ -41,12 +41,10 @@ DEFAULT_DEDUP_PIPELINE = 'crawlo.pipelines.redis_dedup_pipeline.RedisDedupPipeli
 # 爬虫模块配置
 SPIDER_MODULES = ['{{project_name}}.spiders']
-# 默认请求头配置
-# 为DefaultHeaderMiddleware配置默认请求头
+# 默认请求头
 # DEFAULT_REQUEST_HEADERS = {}
 # 允许的域名
-# 为OffsiteMiddleware配置允许的域名
 # ALLOWED_DOMAINS = []
 # 数据管道
@@ -74,6 +72,10 @@ SPIDER_MODULES = ['{{project_name}}.spiders']
 LOG_LEVEL = 'INFO'
 LOG_FILE = 'logs/{{project_name}}.log'
 LOG_ENCODING = 'utf-8'  # 明确指定日志文件编码
+LOG_MAX_BYTES = 50 * 1024 * 1024  # 50MB，适用于高负载场景
+LOG_BACKUP_COUNT = 20  # 20个备份文件，适用于高负载场景
+# 如果不想要日志轮转，可以设置 LOG_MAX_BYTES = 0
+# 当LOG_MAX_BYTES或LOG_BACKUP_COUNT为0时，日志轮转将被禁用，文件会持续增长
 STATS_DUMP = True
 # 输出配置
@@ -120,28 +122,25 @@ MONGO_USE_BATCH = True  # 是否启用批量插入
 # =================================== 网络配置 ===================================
 # 代理配置
-# 代理功能默认不启用，如需使用请在项目配置文件中启用并配置相关参数
 PROXY_ENABLED = False  # 是否启用代理
-# 简化版代理配置（适用于SimpleProxyMiddleware）
-PROXY_LIST = []  # 代理列表，例如: ["http://proxy1:8080", "http://proxy2:8080"]
+# 简单代理（SimpleProxyMiddleware）
+PROXY_LIST = []  # 代理列表
-# 高级代理配置（适用于ProxyMiddleware）
-PROXY_API_URL = ""  # 代理获取接口（请替换为真实地址）
+# 动态代理（ProxyMiddleware）
+PROXY_API_URL = ""  # 代理API地址
-# 代理提取方式（支持字段路径或函数）
-# 示例: "proxy" 适用于 {"proxy": "http://1.1.1.1:8080"}
-# 示例: "data.proxy" 适用于 {"data": {"proxy": "http://1.1.1.1:8080"}}
+# 代理提取方式："proxy" 或 "data.proxy"
 PROXY_EXTRACTOR = "proxy"
 # 代理刷新控制
 PROXY_REFRESH_INTERVAL = 60  # 代理刷新间隔（秒）
-PROXY_API_TIMEOUT = 10  # 请求代理 API 超时时间
+PROXY_API_TIMEOUT = 10  # API超时时间
-# 浏览器指纹模拟（仅 CurlCffi 下载器有效）
-CURL_BROWSER_TYPE = "chrome"  # 可选: chrome, edge, safari, firefox 或版本如 chrome136
+# 浏览器指纹模拟（仅CurlCffiDownloader有效）
+CURL_BROWSER_TYPE = "chrome"  # 可选：chrome/edge/safari/firefox
-# 自定义浏览器版本映射（可覆盖默认行为）
+# 自定义浏览器版本映射
 CURL_BROWSER_VERSION_MAP = {
     "chrome": "chrome136",
     "edge": "edge101",
@@ -158,11 +157,11 @@ HEALTH_CHECK_INTERVAL = 30  # 健康检查间隔（秒）
 REQUEST_STATS_ENABLED = True  # 是否启用请求统计
 STATS_RESET_ON_START = False  # 启动时是否重置统计
-# HttpX 下载器专用配置
+# HttpX专用配置
 HTTPX_HTTP2 = True  # 是否启用HTTP/2支持
 HTTPX_FOLLOW_REDIRECTS = True  # 是否自动跟随重定向
-# AioHttp 下载器专用配置
+# AioHttp专用配置
 AIOHTTP_AUTO_DECOMPRESS = True  # 是否自动解压响应
 AIOHTTP_FORCE_CLOSE = False  # 是否强制关闭连接
@@ -171,7 +170,6 @@ CONNECTION_TTL_DNS_CACHE = 300  # DNS缓存TTL（秒）
 CONNECTION_KEEPALIVE_TIMEOUT = 15  # Keep-Alive超时（秒）
 # 内存监控配置
-# 内存监控扩展默认不启用，如需使用请在项目配置文件中启用
 MEMORY_MONITOR_ENABLED = False  # 是否启用内存监控
 MEMORY_MONITOR_INTERVAL = 60  # 内存监控检查间隔（秒）
 MEMORY_WARNING_THRESHOLD = 80.0  # 内存使用率警告阈值（百分比）

crawlo/templates/project/settings_minimal.py.tmpl CHANGED Viewed

@@ -11,7 +11,7 @@
 # 项目基本信息
 PROJECT_NAME = '{{project_name}}'
-# 运行模式
+# 运行模式：standalone/distributed/auto
 RUN_MODE = 'standalone'
 # 并发配置
@@ -21,16 +21,16 @@ DOWNLOAD_DELAY = 1.0
 # =================================== 核心组件配置 ===================================
-# 下载器配置
+# 下载器：AioHttpDownloader/HttpXDownloader/CurlCffiDownloader
 DOWNLOADER = 'crawlo.downloader.aiohttp_downloader.AioHttpDownloader'
-# 队列配置
+# 队列类型：memory/redis/auto
 QUEUE_TYPE = 'memory'
-# 去重过滤器
+# 去重过滤器：MemoryFilter/AioRedisFilter
 FILTER_CLASS = 'crawlo.filters.memory_filter.MemoryFilter'
-# 默认去重管道
+# 默认去重管道：MemoryDedupPipeline/RedisDedupPipeline
 DEFAULT_DEDUP_PIPELINE = 'crawlo.pipelines.memory_dedup_pipeline.MemoryDedupPipeline'
 # =================================== 爬虫配置 ===================================
@@ -38,12 +38,10 @@ DEFAULT_DEDUP_PIPELINE = 'crawlo.pipelines.memory_dedup_pipeline.MemoryDedupPipe
 # 爬虫模块配置
 SPIDER_MODULES = ['{{project_name}}.spiders']
-# 默认请求头配置
-# 为DefaultHeaderMiddleware配置默认请求头
+# 默认请求头
 # DEFAULT_REQUEST_HEADERS = {}
 # 允许的域名
-# 为OffsiteMiddleware配置允许的域名
 # ALLOWED_DOMAINS = []
 # 数据管道
@@ -71,6 +69,10 @@ SPIDER_MODULES = ['{{project_name}}.spiders']
 LOG_LEVEL = 'INFO'
 LOG_FILE = 'logs/{{project_name}}.log'
 LOG_ENCODING = 'utf-8'  # 明确指定日志文件编码
+LOG_MAX_BYTES = 20 * 1024 * 1024  # 20MB，推荐值
+LOG_BACKUP_COUNT = 10  # 10个备份文件，推荐值
+# 如果不想要日志轮转，可以设置 LOG_MAX_BYTES = 0
+# 当LOG_MAX_BYTES或LOG_BACKUP_COUNT为0时，日志轮转将被禁用，文件会持续增长
 STATS_DUMP = True
 # 输出配置

crawlo/templates/project/settings_simple.py.tmpl CHANGED Viewed

@@ -11,7 +11,7 @@
 # 项目基本信息
 PROJECT_NAME = '{{project_name}}'
-# 运行模式
+# 运行模式：standalone/distributed/auto
 RUN_MODE = 'standalone'
 # 并发配置
@@ -21,16 +21,16 @@ DOWNLOAD_DELAY = 1.0
 # =================================== 核心组件配置 ===================================
-# 下载器配置
+# 下载器：AioHttpDownloader/HttpXDownloader/CurlCffiDownloader
 DOWNLOADER = 'crawlo.downloader.aiohttp_downloader.AioHttpDownloader'
-# 队列配置
+# 队列类型：memory/redis/auto
 QUEUE_TYPE = 'memory'
-# 去重过滤器
+# 去重过滤器：MemoryFilter/AioRedisFilter
 FILTER_CLASS = 'crawlo.filters.memory_filter.MemoryFilter'
-# 默认去重管道
+# 默认去重管道：MemoryDedupPipeline/RedisDedupPipeline
 DEFAULT_DEDUP_PIPELINE = 'crawlo.pipelines.memory_dedup_pipeline.MemoryDedupPipeline'
 # =================================== 爬虫配置 ===================================
@@ -38,12 +38,10 @@ DEFAULT_DEDUP_PIPELINE = 'crawlo.pipelines.memory_dedup_pipeline.MemoryDedupPipe
 # 爬虫模块配置
 SPIDER_MODULES = ['{{project_name}}.spiders']
-# 默认请求头配置
-# 为DefaultHeaderMiddleware配置默认请求头
+# 默认请求头
 # DEFAULT_REQUEST_HEADERS = {}
 # 允许的域名
-# 为OffsiteMiddleware配置允许的域名
 # ALLOWED_DOMAINS = []
 # 数据管道
@@ -71,6 +69,10 @@ SPIDER_MODULES = ['{{project_name}}.spiders']
 LOG_LEVEL = 'INFO'
 LOG_FILE = 'logs/{{project_name}}.log'
 LOG_ENCODING = 'utf-8'  # 明确指定日志文件编码
+LOG_MAX_BYTES = 20 * 1024 * 1024  # 20MB，推荐值
+LOG_BACKUP_COUNT = 10  # 10个备份文件，推荐值
+# 如果不想要日志轮转，可以设置 LOG_MAX_BYTES = 0
+# 当LOG_MAX_BYTES或LOG_BACKUP_COUNT为0时，日志轮转将被禁用，文件会持续增长
 STATS_DUMP = True
 # 输出配置
@@ -117,28 +119,25 @@ MONGO_USE_BATCH = False  # 是否启用批量插入
 # =================================== 网络配置 ===================================
 # 代理配置
-# 代理功能默认不启用，如需使用请在项目配置文件中启用并配置相关参数
 PROXY_ENABLED = False  # 是否启用代理
-# 简化版代理配置（适用于SimpleProxyMiddleware）
-PROXY_LIST = []  # 代理列表，例如: ["http://proxy1:8080", "http://proxy2:8080"]
+# 简单代理（SimpleProxyMiddleware）
+PROXY_LIST = []  # 代理列表
-# 高级代理配置（适用于ProxyMiddleware）
-PROXY_API_URL = ""  # 代理获取接口（请替换为真实地址）
+# 动态代理（ProxyMiddleware）
+PROXY_API_URL = ""  # 代理API地址
-# 代理提取方式（支持字段路径或函数）
-# 示例: "proxy" 适用于 {"proxy": "http://1.1.1.1:8080"}
-# 示例: "data.proxy" 适用于 {"data": {"proxy": "http://1.1.1.1:8080"}}
+# 代理提取方式："proxy" 或 "data.proxy"
 PROXY_EXTRACTOR = "proxy"
 # 代理刷新控制
 PROXY_REFRESH_INTERVAL = 60  # 代理刷新间隔（秒）
-PROXY_API_TIMEOUT = 10  # 请求代理 API 超时时间
+PROXY_API_TIMEOUT = 10  # API超时时间
-# 浏览器指纹模拟（仅 CurlCffi 下载器有效）
-CURL_BROWSER_TYPE = "chrome"  # 可选: chrome, edge, safari, firefox 或版本如 chrome136
+# 浏览器指纹模拟（仅CurlCffiDownloader有效）
+CURL_BROWSER_TYPE = "chrome"  # 可选：chrome/edge/safari/firefox
-# 自定义浏览器版本映射（可覆盖默认行为）
+# 自定义浏览器版本映射
 CURL_BROWSER_VERSION_MAP = {
     "chrome": "chrome136",
     "edge": "edge101",
@@ -155,11 +154,11 @@ HEALTH_CHECK_INTERVAL = 60  # 健康检查间隔（秒）
 REQUEST_STATS_ENABLED = True  # 是否启用请求统计
 STATS_RESET_ON_START = False  # 启动时是否重置统计
-# HttpX 下载器专用配置
+# HttpX专用配置
 HTTPX_HTTP2 = True  # 是否启用HTTP/2支持
 HTTPX_FOLLOW_REDIRECTS = True  # 是否自动跟随重定向
-# AioHttp 下载器专用配置
+# AioHttp专用配置
 AIOHTTP_AUTO_DECOMPRESS = True  # 是否自动解压响应
 AIOHTTP_FORCE_CLOSE = False  # 是否强制关闭连接
@@ -168,7 +167,6 @@ CONNECTION_TTL_DNS_CACHE = 300  # DNS缓存TTL（秒）
 CONNECTION_KEEPALIVE_TIMEOUT = 15  # Keep-Alive超时（秒）
 # 内存监控配置
-# 内存监控扩展默认不启用，如需使用请在项目配置文件中启用
 MEMORY_MONITOR_ENABLED = False  # 是否启用内存监控
 MEMORY_MONITOR_INTERVAL = 60  # 内存监控检查间隔（秒）
 MEMORY_WARNING_THRESHOLD = 80.0  # 内存使用率警告阈值（百分比）

crawlo/templates/run.py.tmpl CHANGED Viewed

@@ -8,7 +8,7 @@ from crawlo.crawler import CrawlerProcess
 def main():
-    """主函数：运行爬虫"""
+    """运行爬虫"""
     try:
         # TODO: 请将 'spider_name' 替换为实际要运行的爬虫名称
         asyncio.run(CrawlerProcess().crawl('spider_name'))

crawlo/templates/spider/spider.py.tmpl CHANGED Viewed

@@ -1,8 +1,6 @@
 # -*- coding: UTF-8 -*-
 """
-{{project_name}}.spiders.{{spider_name}}
-=======================================
-由 `crawlo genspider` 命令生成的爬虫。
+爬虫：{{spider_name}}
 """
 from crawlo.spider import Spider
@@ -11,9 +9,7 @@ from ..items import {{item_class}}
 class {{class_name}}(Spider):
-    """
-    爬虫：{{spider_name}}
-    """
+    """{{spider_name}} 爬虫"""
     name = '{{spider_name}}'
     allowed_domains = ['{{domain}}']
     start_urls = ['https://{{domain}}/']
@@ -22,16 +18,12 @@ class {{class_name}}(Spider):
     custom_settings = {}
     def start_requests(self):
-        """
-        生成初始请求。
-        """
+        """生成初始请求"""
         for url in self.start_urls:
             yield Request(url=url, callback=self.parse)
     def parse(self, response):
-        """
-        解析响应的主方法。
-        """
+        """解析响应"""
         self.logger.info(f'正在解析页面: {response.url}')
         yield {

crawlo/templates/spiders_init.py.tmpl CHANGED Viewed

@@ -1,10 +1,5 @@
 # -*- coding: UTF-8 -*-
 """
-{{project_name}}.spiders
-========================
-存放所有的爬虫。
-该文件支持自动导入所有爬虫模块，确保爬虫能被正确注册。
-框架会自动扫描并导入此目录下的所有Python文件（除了__init__.py）。
-"""
-# 框架会自动处理爬虫模块的导入，无需手动导入
+爬虫模块目录
+框架自动扫描并注册此目录下的所有爬虫
+"""

crawlo/tools/__init__.py CHANGED Viewed

@@ -35,60 +35,6 @@ from .text_cleaner import (
     extract_urls
 )
-from .data_formatter import (
-    DataFormatter,
-    format_number,
-    format_currency,
-    format_percentage,
-    format_phone_number,
-    format_chinese_id_card,
-    capitalize_words
-)
-from .encoding_converter import (
-    EncodingConverter,
-    detect_encoding,
-    to_utf8,
-    convert_encoding
-)
-# 数据验证工具封装
-from .data_validator import (
-    DataValidator,
-    validate_email,
-    validate_phone,
-    validate_url,
-    validate_chinese_id_card,
-    validate_date,
-    validate_number_range,
-    check_data_integrity
-)
-# 请求处理工具
-from .request_tools import (
-    build_url,
-    add_query_params,
-    merge_headers
-)
-# 重试机制封装
-from .retry_mechanism import (
-    RetryMechanism,
-    retry,
-    should_retry,
-    exponential_backoff
-)
-# 带认证代理工具
-from .authenticated_proxy import (
-    AuthenticatedProxy,
-    create_proxy_config,
-    format_proxy_for_request,
-    parse_proxy_url,
-    validate_proxy_url,
-    get_proxy_info
-)
 # 分布式协调工具
 from .distributed_coordinator import (
     TaskDistributor,
@@ -118,8 +64,6 @@ __all__ = [
     # 数据清洗工具
     "TextCleaner",
-    "DataFormatter",
-    "EncodingConverter",
     "remove_html_tags",
     "decode_html_entities",
     "remove_extra_whitespace",
@@ -129,53 +73,6 @@ __all__ = [
     "extract_numbers",
     "extract_emails",
     "extract_urls",
-    "format_number",
-    "format_currency",
-    "format_percentage",
-    "format_phone_number",
-    "format_chinese_id_card",
-    "capitalize_words",
-    "detect_encoding",
-    "to_utf8",
-    "convert_encoding",
-    # 数据验证工具
-    "DataValidator",
-    "validate_email",
-    "validate_phone",
-    "validate_url",
-    "validate_chinese_id_card",
-    "validate_date",
-    "validate_number_range",
-    "check_data_integrity",
-    # 请求处理工具
-    "build_url",
-    "add_query_params",
-    "merge_headers",
-    # 重试机制封装
-    "RetryMechanism",
-    "retry",
-    "should_retry",
-    "exponential_backoff",
-    # 反爬虫应对工具
-    "ProxyPoolManager",
-    "CaptchaHandler",
-    "AntiCrawler",
-    "get_random_user_agent",
-    "rotate_proxy",
-    "handle_captcha",
-    "detect_rate_limiting",
-    # 带认证代理工具
-    "AuthenticatedProxy",
-    "create_proxy_config",
-    "format_proxy_for_request",
-    "parse_proxy_url",
-    "validate_proxy_url",
-    "get_proxy_info",
     # 分布式协调工具
     "TaskDistributor",

crawlo/tools/scenario_adapter.py CHANGED Viewed

@@ -24,7 +24,7 @@ import re
 from typing import Dict, Any
 from urllib.parse import urlparse
-from crawlo.utils.log import get_logger
+from crawlo.logging import get_logger
 class DynamicLoadingScenarioAdapter:

crawlo 1.4.6__py3-none-any.whl → 1.4.8__py3-none-any.whl

Potentially problematic release.

crawlo 1.4.6py3-none-any.whl → 1.4.8py3-none-any.whl