PyPI - crawlo - Versions diffs - 1.1.9__py3-none-any.whl → 1.2.1__py3-none-any.whl - Mend

crawlo 1.1.9py3-none-any.whl → 1.2.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of crawlo might be problematic. Click here for more details.

Files changed (221) hide show

crawlo/__init__.py +61 -61
crawlo/__version__.py +1 -1
crawlo/cleaners/__init__.py +60 -60
crawlo/cleaners/data_formatter.py +225 -225
crawlo/cleaners/encoding_converter.py +125 -125
crawlo/cleaners/text_cleaner.py +232 -232
crawlo/cli.py +65 -65
crawlo/commands/__init__.py +14 -14
crawlo/commands/check.py +594 -594
crawlo/commands/genspider.py +151 -151
crawlo/commands/help.py +142 -132
crawlo/commands/list.py +155 -155
crawlo/commands/run.py +292 -292
crawlo/commands/startproject.py +418 -418
crawlo/commands/stats.py +188 -188
crawlo/commands/utils.py +186 -186
crawlo/config.py +312 -312
crawlo/config_validator.py +252 -252
crawlo/core/__init__.py +2 -2
crawlo/core/engine.py +354 -345
crawlo/core/processor.py +40 -40
crawlo/core/scheduler.py +143 -136
crawlo/crawler.py +1027 -1027
crawlo/downloader/__init__.py +266 -266
crawlo/downloader/aiohttp_downloader.py +220 -220
crawlo/downloader/cffi_downloader.py +256 -256
crawlo/downloader/httpx_downloader.py +259 -259
crawlo/downloader/hybrid_downloader.py +213 -213
crawlo/downloader/playwright_downloader.py +402 -402
crawlo/downloader/selenium_downloader.py +472 -472
crawlo/event.py +11 -11
crawlo/exceptions.py +81 -81
crawlo/extension/__init__.py +37 -37
crawlo/extension/health_check.py +141 -141
crawlo/extension/log_interval.py +57 -57
crawlo/extension/log_stats.py +81 -81
crawlo/extension/logging_extension.py +43 -43
crawlo/extension/memory_monitor.py +104 -104
crawlo/extension/performance_profiler.py +133 -133
crawlo/extension/request_recorder.py +107 -107
crawlo/filters/__init__.py +154 -154
crawlo/filters/aioredis_filter.py +280 -280
crawlo/filters/memory_filter.py +269 -269
crawlo/items/__init__.py +23 -23
crawlo/items/base.py +21 -21
crawlo/items/fields.py +53 -53
crawlo/items/items.py +104 -104
crawlo/middleware/__init__.py +21 -21
crawlo/middleware/default_header.py +132 -32
crawlo/middleware/download_delay.py +105 -28
crawlo/middleware/middleware_manager.py +135 -135
crawlo/middleware/offsite.py +116 -0
crawlo/middleware/proxy.py +366 -272
crawlo/middleware/request_ignore.py +88 -30
crawlo/middleware/response_code.py +164 -18
crawlo/middleware/response_filter.py +138 -26
crawlo/middleware/retry.py +124 -124
crawlo/mode_manager.py +211 -211
crawlo/network/__init__.py +21 -21
crawlo/network/request.py +338 -338
crawlo/network/response.py +359 -359
crawlo/pipelines/__init__.py +21 -21
crawlo/pipelines/bloom_dedup_pipeline.py +156 -156
crawlo/pipelines/console_pipeline.py +39 -39
crawlo/pipelines/csv_pipeline.py +316 -316
crawlo/pipelines/database_dedup_pipeline.py +224 -224
crawlo/pipelines/json_pipeline.py +218 -218
crawlo/pipelines/memory_dedup_pipeline.py +115 -115
crawlo/pipelines/mongo_pipeline.py +131 -131
crawlo/pipelines/mysql_pipeline.py +316 -316
crawlo/pipelines/pipeline_manager.py +61 -61
crawlo/pipelines/redis_dedup_pipeline.py +167 -167
crawlo/project.py +187 -187
crawlo/queue/pqueue.py +37 -37
crawlo/queue/queue_manager.py +337 -334
crawlo/queue/redis_priority_queue.py +298 -298
crawlo/settings/__init__.py +7 -7
crawlo/settings/default_settings.py +226 -219
crawlo/settings/setting_manager.py +122 -122
crawlo/spider/__init__.py +639 -639
crawlo/stats_collector.py +59 -59
crawlo/subscriber.py +130 -130
crawlo/task_manager.py +30 -30
crawlo/templates/crawlo.cfg.tmpl +10 -10
crawlo/templates/project/__init__.py.tmpl +3 -3
crawlo/templates/project/items.py.tmpl +17 -17
crawlo/templates/project/middlewares.py.tmpl +118 -109
crawlo/templates/project/pipelines.py.tmpl +96 -96
crawlo/templates/project/run.py.tmpl +45 -45
crawlo/templates/project/settings.py.tmpl +327 -326
crawlo/templates/project/settings_distributed.py.tmpl +119 -119
crawlo/templates/project/settings_gentle.py.tmpl +94 -94
crawlo/templates/project/settings_high_performance.py.tmpl +151 -151
crawlo/templates/project/settings_simple.py.tmpl +68 -68
crawlo/templates/project/spiders/__init__.py.tmpl +5 -5
crawlo/templates/spider/spider.py.tmpl +143 -141
crawlo/tools/__init__.py +182 -182
crawlo/tools/anti_crawler.py +268 -268
crawlo/tools/authenticated_proxy.py +240 -240
crawlo/tools/data_validator.py +180 -180
crawlo/tools/date_tools.py +35 -35
crawlo/tools/distributed_coordinator.py +386 -386
crawlo/tools/retry_mechanism.py +220 -220
crawlo/tools/scenario_adapter.py +262 -262
crawlo/utils/__init__.py +35 -35
crawlo/utils/batch_processor.py +260 -260
crawlo/utils/controlled_spider_mixin.py +439 -439
crawlo/utils/date_tools.py +290 -290
crawlo/utils/db_helper.py +343 -343
crawlo/utils/enhanced_error_handler.py +359 -359
crawlo/utils/env_config.py +105 -105
crawlo/utils/error_handler.py +125 -125
crawlo/utils/func_tools.py +82 -82
crawlo/utils/large_scale_config.py +286 -286
crawlo/utils/large_scale_helper.py +343 -343
crawlo/utils/log.py +128 -128
crawlo/utils/performance_monitor.py +284 -284
crawlo/utils/queue_helper.py +175 -175
crawlo/utils/redis_connection_pool.py +334 -334
crawlo/utils/redis_key_validator.py +199 -199
crawlo/utils/request.py +267 -267
crawlo/utils/request_serializer.py +219 -219
crawlo/utils/spider_loader.py +62 -62
crawlo/utils/system.py +11 -11
crawlo/utils/tools.py +4 -4
crawlo/utils/url.py +39 -39
crawlo-1.2.1.dist-info/METADATA +692 -0
crawlo-1.2.1.dist-info/RECORD +220 -0
examples/__init__.py +7 -7
examples/aiohttp_settings.py +42 -0
examples/curl_cffi_settings.py +41 -0
examples/default_header_middleware_example.py +107 -0
examples/default_header_spider_example.py +129 -0
examples/download_delay_middleware_example.py +160 -0
examples/httpx_settings.py +42 -0
examples/multi_downloader_proxy_example.py +81 -0
examples/offsite_middleware_example.py +55 -0
examples/offsite_spider_example.py +107 -0
examples/proxy_spider_example.py +166 -0
examples/request_ignore_middleware_example.py +51 -0
examples/request_ignore_spider_example.py +99 -0
examples/response_code_middleware_example.py +52 -0
examples/response_filter_middleware_example.py +67 -0
examples/tong_hua_shun_settings.py +62 -0
examples/tong_hua_shun_spider.py +170 -0
tests/DOUBLE_CRAWLO_PREFIX_FIX_REPORT.md +81 -81
tests/__init__.py +7 -7
tests/advanced_tools_example.py +275 -275
tests/authenticated_proxy_example.py +236 -236
tests/cleaners_example.py +160 -160
tests/config_validation_demo.py +102 -102
tests/controlled_spider_example.py +205 -205
tests/date_tools_example.py +180 -180
tests/dynamic_loading_example.py +523 -523
tests/dynamic_loading_test.py +104 -104
tests/env_config_example.py +133 -133
tests/error_handling_example.py +171 -171
tests/redis_key_validation_demo.py +130 -130
tests/response_improvements_example.py +144 -144
tests/test_advanced_tools.py +148 -148
tests/test_all_redis_key_configs.py +145 -145
tests/test_authenticated_proxy.py +141 -141
tests/test_cleaners.py +54 -54
tests/test_comprehensive.py +146 -146
tests/test_config_validator.py +193 -193
tests/test_crawlo_proxy_integration.py +173 -0
tests/test_date_tools.py +123 -123
tests/test_default_header_middleware.py +159 -0
tests/test_double_crawlo_fix.py +207 -207
tests/test_double_crawlo_fix_simple.py +124 -124
tests/test_download_delay_middleware.py +222 -0
tests/test_downloader_proxy_compatibility.py +269 -0
tests/test_dynamic_downloaders_proxy.py +124 -124
tests/test_dynamic_proxy.py +92 -92
tests/test_dynamic_proxy_config.py +146 -146
tests/test_dynamic_proxy_real.py +109 -109
tests/test_edge_cases.py +303 -303
tests/test_enhanced_error_handler.py +270 -270
tests/test_env_config.py +121 -121
tests/test_error_handler_compatibility.py +112 -112
tests/test_final_validation.py +153 -153
tests/test_framework_env_usage.py +103 -103
tests/test_integration.py +356 -356
tests/test_item_dedup_redis_key.py +122 -122
tests/test_offsite_middleware.py +222 -0
tests/test_parsel.py +29 -29
tests/test_performance.py +327 -327
tests/test_proxy_api.py +265 -0
tests/test_proxy_health_check.py +32 -32
tests/test_proxy_middleware.py +122 -0
tests/test_proxy_middleware_enhanced.py +217 -0
tests/test_proxy_middleware_integration.py +136 -136
tests/test_proxy_providers.py +56 -56
tests/test_proxy_stats.py +19 -19
tests/test_proxy_strategies.py +59 -59
tests/test_queue_manager_double_crawlo.py +174 -231
tests/test_queue_manager_redis_key.py +176 -176
tests/test_real_scenario_proxy.py +196 -0
tests/test_redis_config.py +28 -28
tests/test_redis_connection_pool.py +294 -294
tests/test_redis_key_naming.py +181 -181
tests/test_redis_key_validator.py +123 -123
tests/test_redis_queue.py +224 -224
tests/test_request_ignore_middleware.py +183 -0
tests/test_request_serialization.py +70 -70
tests/test_response_code_middleware.py +350 -0
tests/test_response_filter_middleware.py +428 -0
tests/test_response_improvements.py +152 -152
tests/test_retry_middleware.py +242 -0
tests/test_scheduler.py +241 -241
tests/test_simple_response.py +61 -61
tests/test_telecom_spider_redis_key.py +205 -205
tests/test_template_content.py +87 -87
tests/test_template_redis_key.py +134 -134
tests/test_tools.py +153 -153
tests/tools_example.py +257 -257
crawlo-1.1.9.dist-info/METADATA +0 -626
crawlo-1.1.9.dist-info/RECORD +0 -190
{crawlo-1.1.9.dist-info → crawlo-1.2.1.dist-info}/WHEEL +0 -0
{crawlo-1.1.9.dist-info → crawlo-1.2.1.dist-info}/entry_points.txt +0 -0
{crawlo-1.1.9.dist-info → crawlo-1.2.1.dist-info}/top_level.txt +0 -0

crawlo/network/response.py CHANGED Viewed

@@ -1,360 +1,360 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-"""
-HTTP Response 封装模块
-=====================
-提供功能丰富的HTTP响应封装，支持:
-- 智能编码检测和解码
-- XPath/CSS 选择器
-- JSON 解析和缓存
-- 正则表达式支持
-- Cookie 处理
-"""
-import re
-import ujson
-from http.cookies import SimpleCookie
-from parsel import Selector, SelectorList
-from typing import Dict, Any, List, Optional, Union
-from urllib.parse import urljoin as _urljoin
-from crawlo.exceptions import DecodeError
-class Response:
-    """
-    HTTP响应的封装，提供数据解析的便捷方法。
-    功能特性:
-    - 智能编码检测和缓存
-    - 懒加载 Selector 实例
-    - JSON 解析和缓存
-    - 多类型数据提取
-    """
-    def __init__(
-            self,
-            url: str,
-            *,
-            headers: Dict[str, Any] = None,
-            body: bytes = b"",
-            method: str = 'GET',
-            request: 'Request' = None,  # 使用字符串注解避免循环导入
-            status_code: int = 200,
-    ):
-        # 基本属性
-        self.url = url
-        self.headers = headers or {}
-        self.body = body
-        self.method = method.upper()
-        self.request = request
-        self.status_code = status_code
-        # 编码处理
-        self.encoding = self._determine_encoding()
-        # 缓存属性
-        self._text_cache = None
-        self._json_cache = None
-        self._selector_instance = None
-        # 状态标记
-        self._is_success = 200 <= status_code < 300
-        self._is_redirect = 300 <= status_code < 400
-        self._is_client_error = 400 <= status_code < 500
-        self._is_server_error = status_code >= 500
-    def _determine_encoding(self) -> Optional[str]:
-        """智能检测响应编码"""
-        # 1. 优先使用 request 的编码
-        if self.request and self.request.encoding:
-            return self.request.encoding
-        # 2. 从 Content-Type 头中检测
-        content_type = self.headers.get("content-type", "") or self.headers.get("Content-Type", "")
-        if content_type:
-            charset_match = re.search(r"charset=([w-]+)", content_type, re.I)
-            if charset_match:
-                return charset_match.group(1).lower()
-        # 3. 从 HTML meta 标签中检测(仅对HTML内容)
-        if b'<html' in self.body[:1024].lower():
-            # 查找 <meta charset="xxx"> 或 <meta http-equiv="Content-Type" content="...charset=xxx">
-            html_start = self.body[:4096]  # 只检查前4KB
-            try:
-                html_text = html_start.decode('ascii', errors='ignore')
-                # <meta charset="utf-8">
-                charset_match = re.search(r'<meta[^>]+charset=["\']?([\w-]+)', html_text, re.I)
-                if charset_match:
-                    return charset_match.group(1).lower()
-                # <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
-                content_match = re.search(r'<meta[^>]+content=["\'][^"\'>]*charset=([\w-]+)', html_text, re.I)
-                if content_match:
-                    return content_match.group(1).lower()
-            except Exception:
-                pass
-        # 4. 默认使用 utf-8
-        return 'utf-8'
-    @property
-    def text(self) -> str:
-        """将响应体(body)以正确的编码解码为字符串，并缓存结果。"""
-        if self._text_cache is not None:
-            return self._text_cache
-        if not self.body:
-            self._text_cache = ""
-            return self._text_cache
-        # 尝试多种编码
-        encodings_to_try = [self.encoding]
-        if self.encoding != 'utf-8':
-            encodings_to_try.append('utf-8')
-        if 'gbk' not in encodings_to_try:
-            encodings_to_try.append('gbk')
-        if 'gb2312' not in encodings_to_try:
-            encodings_to_try.append('gb2312')
-        encodings_to_try.append('latin1')  # 最后的回退选项
-        for encoding in encodings_to_try:
-            if not encoding:
-                continue
-            try:
-                self._text_cache = self.body.decode(encoding)
-                return self._text_cache
-            except (UnicodeDecodeError, LookupError):
-                continue
-        # 所有编码都失败，使用容错解码
-        try:
-            self._text_cache = self.body.decode('utf-8', errors='replace')
-            return self._text_cache
-        except Exception as e:
-            raise DecodeError(f"Failed to decode response from {self.url}: {e}")
-    @property
-    def is_success(self) -> bool:
-        """检查响应是否成功 (2xx)"""
-        return self._is_success
-    @property
-    def is_redirect(self) -> bool:
-        """检查响应是否为重定向 (3xx)"""
-        return self._is_redirect
-    @property
-    def is_client_error(self) -> bool:
-        """检查响应是否为客户端错误 (4xx)"""
-        return self._is_client_error
-    @property
-    def is_server_error(self) -> bool:
-        """检查响应是否为服务器错误 (5xx)"""
-        return self._is_server_error
-    @property
-    def content_type(self) -> str:
-        """获取响应的 Content-Type"""
-        return self.headers.get('content-type', '') or self.headers.get('Content-Type', '')
-    @property
-    def content_length(self) -> Optional[int]:
-        """获取响应的 Content-Length"""
-        length = self.headers.get('content-length') or self.headers.get('Content-Length')
-        return int(length) if length else None
-    def json(self, default: Any = None) -> Any:
-        """将响应文本解析为 JSON 对象。"""
-        if self._json_cache is not None:
-            return self._json_cache
-        try:
-            self._json_cache = ujson.loads(self.text)
-            return self._json_cache
-        except (ujson.JSONDecodeError, ValueError) as e:
-            if default is not None:
-                return default
-            raise DecodeError(f"Failed to parse JSON from {self.url}: {e}")
-    def urljoin(self, url: str) -> str:
-        """拼接 URL，自动处理相对路径。"""
-        return _urljoin(self.url, url)
-    @property
-    def _selector(self) -> Selector:
-        """懒加载 Selector 实例"""
-        if self._selector_instance is None:
-            self._selector_instance = Selector(self.text)
-        return self._selector_instance
-    def xpath(self, query: str) -> SelectorList:
-        """使用 XPath 选择器查询文档。"""
-        return self._selector.xpath(query)
-    def css(self, query: str) -> SelectorList:
-        """使用 CSS 选择器查询文档。"""
-        return self._selector.css(query)
-    def _is_xpath(self, query: str) -> bool:
-        """判断查询语句是否为XPath"""
-        return query.startswith(('/', '//', './'))
-    def _extract_text_from_elements(self, elements: SelectorList, join_str: str = " ") -> str:
-        """
-        从元素列表中提取文本并拼接
-        :param elements: SelectorList元素列表
-        :param join_str: 文本拼接分隔符
-        :return: 拼接后的文本
-        """
-        texts = []
-        for element in elements:
-            # 获取元素的所有文本节点
-            if hasattr(element, 'xpath'):
-                element_texts = element.xpath('.//text()').getall()
-            else:
-                element_texts = [str(element)]
-            # 清理并添加非空文本
-            for text in element_texts:
-                cleaned = text.strip()
-                if cleaned:
-                    texts.append(cleaned)
-        return join_str.join(texts)
-    def extract_text(self, xpath_or_css: str, join_str: str = " ", default: str = '') -> str:
-        """
-        提取单个元素的文本内容，支持CSS和XPath选择器
-        参数:
-            xpath_or_css: XPath或CSS选择器
-            join_str: 文本拼接分隔符(默认为空格)
-            default: 默认返回值，当未找到元素时返回
-        返回:
-            拼接后的纯文本字符串
-        """
-        try:
-            elements = self.xpath(xpath_or_css) if self._is_xpath(xpath_or_css) else self.css(xpath_or_css)
-            if not elements:
-                return default
-            return self._extract_text_from_elements(elements, join_str)
-        except Exception:
-            return default
-    def extract_texts(self, xpath_or_css: str, join_str: str = " ", default: List[str] = None) -> List[str]:
-        """
-        提取多个元素的文本内容列表，支持CSS和XPath选择器
-        参数:
-            xpath_or_css: XPath或CSS选择器
-            join_str: 单个节点内文本拼接分隔符
-            default: 默认返回值，当未找到元素时返回
-        返回:
-            纯文本列表(每个元素对应一个节点的文本)
-        """
-        if default is None:
-            default = []
-        try:
-            elements = self.xpath(xpath_or_css) if self._is_xpath(xpath_or_css) else self.css(xpath_or_css)
-            if not elements:
-                return default
-            result = []
-            for element in elements:
-                # 对每个元素提取文本
-                if hasattr(element, 'xpath'):
-                    texts = element.xpath('.//text()').getall()
-                else:
-                    texts = [str(element)]
-                # 清理文本并拼接
-                clean_texts = [text.strip() for text in texts if text.strip()]
-                if clean_texts:
-                    result.append(join_str.join(clean_texts))
-            return result if result else default
-        except Exception:
-            return default
-    def extract_attr(self, xpath_or_css: str, attr_name: str, default: Any = None) -> Any:
-        """
-        提取单个元素的属性值，支持CSS和XPath选择器
-        参数:
-            xpath_or_css: XPath或CSS选择器
-            attr_name: 属性名称
-            default: 默认返回值
-        返回:
-            属性值或默认值
-        """
-        try:
-            elements = self.xpath(xpath_or_css) if self._is_xpath(xpath_or_css) else self.css(xpath_or_css)
-            if not elements:
-                return default
-            return elements.attrib.get(attr_name, default)
-        except Exception:
-            return default
-    def extract_attrs(self, xpath_or_css: str, attr_name: str, default: List[Any] = None) -> List[Any]:
-        """
-        提取多个元素的属性值列表，支持CSS和XPath选择器
-        参数:
-            xpath_or_css: XPath或CSS选择器
-            attr_name: 属性名称
-            default: 默认返回值
-        返回:
-            属性值列表
-        """
-        if default is None:
-            default = []
-        try:
-            elements = self.xpath(xpath_or_css) if self._is_xpath(xpath_or_css) else self.css(xpath_or_css)
-            if not elements:
-                return default
-            result = []
-            for element in elements:
-                if hasattr(element, 'attrib'):
-                    attr_value = element.attrib.get(attr_name)
-                    if attr_value is not None:
-                        result.append(attr_value)
-            return result if result else default
-        except Exception:
-            return default
-    def re_search(self, pattern: str, flags: int = re.DOTALL) -> Optional[re.Match]:
-        """在响应文本上执行正则表达式搜索。"""
-        if not isinstance(pattern, str):
-            raise TypeError("Pattern must be a string")
-        return re.search(pattern, self.text, flags=flags)
-    def re_findall(self, pattern: str, flags: int = re.DOTALL) -> List[Any]:
-        """在响应文本上执行正则表达式查找。"""
-        if not isinstance(pattern, str):
-            raise TypeError("Pattern must be a string")
-        return re.findall(pattern, self.text, flags=flags)
-    def get_cookies(self) -> Dict[str, str]:
-        """从响应头中解析并返回Cookies。"""
-        cookie_header = self.headers.get("Set-Cookie", "")
-        if isinstance(cookie_header, list):
-            cookie_header = ", ".join(cookie_header)
-        cookies = SimpleCookie()
-        cookies.load(cookie_header)
-        return {key: morsel.value for key, morsel in cookies.items()}
-    @property
-    def meta(self) -> Dict:
-        """获取关联的 Request 对象的 meta 字典。"""
-        return self.request.meta if self.request else {}
-    def __str__(self):
+#!/usr/bin/python
+# -*- coding:UTF-8 -*-
+"""
+HTTP Response 封装模块
+=====================
+提供功能丰富的HTTP响应封装，支持:
+- 智能编码检测和解码
+- XPath/CSS 选择器
+- JSON 解析和缓存
+- 正则表达式支持
+- Cookie 处理
+"""
+import re
+import ujson
+from http.cookies import SimpleCookie
+from parsel import Selector, SelectorList
+from typing import Dict, Any, List, Optional, Union
+from urllib.parse import urljoin as _urljoin
+from crawlo.exceptions import DecodeError
+class Response:
+    """
+    HTTP响应的封装，提供数据解析的便捷方法。
+    功能特性:
+    - 智能编码检测和缓存
+    - 懒加载 Selector 实例
+    - JSON 解析和缓存
+    - 多类型数据提取
+    """
+    def __init__(
+            self,
+            url: str,
+            *,
+            headers: Dict[str, Any] = None,
+            body: bytes = b"",
+            method: str = 'GET',
+            request: 'Request' = None,  # 使用字符串注解避免循环导入
+            status_code: int = 200,
+    ):
+        # 基本属性
+        self.url = url
+        self.headers = headers or {}
+        self.body = body
+        self.method = method.upper()
+        self.request = request
+        self.status_code = status_code
+        # 编码处理
+        self.encoding = self._determine_encoding()
+        # 缓存属性
+        self._text_cache = None
+        self._json_cache = None
+        self._selector_instance = None
+        # 状态标记
+        self._is_success = 200 <= status_code < 300
+        self._is_redirect = 300 <= status_code < 400
+        self._is_client_error = 400 <= status_code < 500
+        self._is_server_error = status_code >= 500
+    def _determine_encoding(self) -> Optional[str]:
+        """智能检测响应编码"""
+        # 1. 优先使用 request 的编码
+        if self.request and self.request.encoding:
+            return self.request.encoding
+        # 2. 从 Content-Type 头中检测
+        content_type = self.headers.get("content-type", "") or self.headers.get("Content-Type", "")
+        if content_type:
+            charset_match = re.search(r"charset=([w-]+)", content_type, re.I)
+            if charset_match:
+                return charset_match.group(1).lower()
+        # 3. 从 HTML meta 标签中检测(仅对HTML内容)
+        if b'<html' in self.body[:1024].lower():
+            # 查找 <meta charset="xxx"> 或 <meta http-equiv="Content-Type" content="...charset=xxx">
+            html_start = self.body[:4096]  # 只检查前4KB
+            try:
+                html_text = html_start.decode('ascii', errors='ignore')
+                # <meta charset="utf-8">
+                charset_match = re.search(r'<meta[^>]+charset=["\']?([\w-]+)', html_text, re.I)
+                if charset_match:
+                    return charset_match.group(1).lower()
+                # <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
+                content_match = re.search(r'<meta[^>]+content=["\'][^"\'>]*charset=([\w-]+)', html_text, re.I)
+                if content_match:
+                    return content_match.group(1).lower()
+            except Exception:
+                pass
+        # 4. 默认使用 utf-8
+        return 'utf-8'
+    @property
+    def text(self) -> str:
+        """将响应体(body)以正确的编码解码为字符串，并缓存结果。"""
+        if self._text_cache is not None:
+            return self._text_cache
+        if not self.body:
+            self._text_cache = ""
+            return self._text_cache
+        # 尝试多种编码
+        encodings_to_try = [self.encoding]
+        if self.encoding != 'utf-8':
+            encodings_to_try.append('utf-8')
+        if 'gbk' not in encodings_to_try:
+            encodings_to_try.append('gbk')
+        if 'gb2312' not in encodings_to_try:
+            encodings_to_try.append('gb2312')
+        encodings_to_try.append('latin1')  # 最后的回退选项
+        for encoding in encodings_to_try:
+            if not encoding:
+                continue
+            try:
+                self._text_cache = self.body.decode(encoding)
+                return self._text_cache
+            except (UnicodeDecodeError, LookupError):
+                continue
+        # 所有编码都失败，使用容错解码
+        try:
+            self._text_cache = self.body.decode('utf-8', errors='replace')
+            return self._text_cache
+        except Exception as e:
+            raise DecodeError(f"Failed to decode response from {self.url}: {e}")
+    @property
+    def is_success(self) -> bool:
+        """检查响应是否成功 (2xx)"""
+        return self._is_success
+    @property
+    def is_redirect(self) -> bool:
+        """检查响应是否为重定向 (3xx)"""
+        return self._is_redirect
+    @property
+    def is_client_error(self) -> bool:
+        """检查响应是否为客户端错误 (4xx)"""
+        return self._is_client_error
+    @property
+    def is_server_error(self) -> bool:
+        """检查响应是否为服务器错误 (5xx)"""
+        return self._is_server_error
+    @property
+    def content_type(self) -> str:
+        """获取响应的 Content-Type"""
+        return self.headers.get('content-type', '') or self.headers.get('Content-Type', '')
+    @property
+    def content_length(self) -> Optional[int]:
+        """获取响应的 Content-Length"""
+        length = self.headers.get('content-length') or self.headers.get('Content-Length')
+        return int(length) if length else None
+    def json(self, default: Any = None) -> Any:
+        """将响应文本解析为 JSON 对象。"""
+        if self._json_cache is not None:
+            return self._json_cache
+        try:
+            self._json_cache = ujson.loads(self.text)
+            return self._json_cache
+        except (ujson.JSONDecodeError, ValueError) as e:
+            if default is not None:
+                return default
+            raise DecodeError(f"Failed to parse JSON from {self.url}: {e}")
+    def urljoin(self, url: str) -> str:
+        """拼接 URL，自动处理相对路径。"""
+        return _urljoin(self.url, url)
+    @property
+    def _selector(self) -> Selector:
+        """懒加载 Selector 实例"""
+        if self._selector_instance is None:
+            self._selector_instance = Selector(self.text)
+        return self._selector_instance
+    def xpath(self, query: str) -> SelectorList:
+        """使用 XPath 选择器查询文档。"""
+        return self._selector.xpath(query)
+    def css(self, query: str) -> SelectorList:
+        """使用 CSS 选择器查询文档。"""
+        return self._selector.css(query)
+    def _is_xpath(self, query: str) -> bool:
+        """判断查询语句是否为XPath"""
+        return query.startswith(('/', '//', './'))
+    def _extract_text_from_elements(self, elements: SelectorList, join_str: str = " ") -> str:
+        """
+        从元素列表中提取文本并拼接
+        :param elements: SelectorList元素列表
+        :param join_str: 文本拼接分隔符
+        :return: 拼接后的文本
+        """
+        texts = []
+        for element in elements:
+            # 获取元素的所有文本节点
+            if hasattr(element, 'xpath'):
+                element_texts = element.xpath('.//text()').getall()
+            else:
+                element_texts = [str(element)]
+            # 清理并添加非空文本
+            for text in element_texts:
+                cleaned = text.strip()
+                if cleaned:
+                    texts.append(cleaned)
+        return join_str.join(texts)
+    def extract_text(self, xpath_or_css: str, join_str: str = " ", default: str = '') -> str:
+        """
+        提取单个元素的文本内容，支持CSS和XPath选择器
+        参数:
+            xpath_or_css: XPath或CSS选择器
+            join_str: 文本拼接分隔符(默认为空格)
+            default: 默认返回值，当未找到元素时返回
+        返回:
+            拼接后的纯文本字符串
+        """
+        try:
+            elements = self.xpath(xpath_or_css) if self._is_xpath(xpath_or_css) else self.css(xpath_or_css)
+            if not elements:
+                return default
+            return self._extract_text_from_elements(elements, join_str)
+        except Exception:
+            return default
+    def extract_texts(self, xpath_or_css: str, join_str: str = " ", default: List[str] = None) -> List[str]:
+        """
+        提取多个元素的文本内容列表，支持CSS和XPath选择器
+        参数:
+            xpath_or_css: XPath或CSS选择器
+            join_str: 单个节点内文本拼接分隔符
+            default: 默认返回值，当未找到元素时返回
+        返回:
+            纯文本列表(每个元素对应一个节点的文本)
+        """
+        if default is None:
+            default = []
+        try:
+            elements = self.xpath(xpath_or_css) if self._is_xpath(xpath_or_css) else self.css(xpath_or_css)
+            if not elements:
+                return default
+            result = []
+            for element in elements:
+                # 对每个元素提取文本
+                if hasattr(element, 'xpath'):
+                    texts = element.xpath('.//text()').getall()
+                else:
+                    texts = [str(element)]
+                # 清理文本并拼接
+                clean_texts = [text.strip() for text in texts if text.strip()]
+                if clean_texts:
+                    result.append(join_str.join(clean_texts))
+            return result if result else default
+        except Exception:
+            return default
+    def extract_attr(self, xpath_or_css: str, attr_name: str, default: Any = None) -> Any:
+        """
+        提取单个元素的属性值，支持CSS和XPath选择器
+        参数:
+            xpath_or_css: XPath或CSS选择器
+            attr_name: 属性名称
+            default: 默认返回值
+        返回:
+            属性值或默认值
+        """
+        try:
+            elements = self.xpath(xpath_or_css) if self._is_xpath(xpath_or_css) else self.css(xpath_or_css)
+            if not elements:
+                return default
+            return elements.attrib.get(attr_name, default)
+        except Exception:
+            return default
+    def extract_attrs(self, xpath_or_css: str, attr_name: str, default: List[Any] = None) -> List[Any]:
+        """
+        提取多个元素的属性值列表，支持CSS和XPath选择器
+        参数:
+            xpath_or_css: XPath或CSS选择器
+            attr_name: 属性名称
+            default: 默认返回值
+        返回:
+            属性值列表
+        """
+        if default is None:
+            default = []
+        try:
+            elements = self.xpath(xpath_or_css) if self._is_xpath(xpath_or_css) else self.css(xpath_or_css)
+            if not elements:
+                return default
+            result = []
+            for element in elements:
+                if hasattr(element, 'attrib'):
+                    attr_value = element.attrib.get(attr_name)
+                    if attr_value is not None:
+                        result.append(attr_value)
+            return result if result else default
+        except Exception:
+            return default
+    def re_search(self, pattern: str, flags: int = re.DOTALL) -> Optional[re.Match]:
+        """在响应文本上执行正则表达式搜索。"""
+        if not isinstance(pattern, str):
+            raise TypeError("Pattern must be a string")
+        return re.search(pattern, self.text, flags=flags)
+    def re_findall(self, pattern: str, flags: int = re.DOTALL) -> List[Any]:
+        """在响应文本上执行正则表达式查找。"""
+        if not isinstance(pattern, str):
+            raise TypeError("Pattern must be a string")
+        return re.findall(pattern, self.text, flags=flags)
+    def get_cookies(self) -> Dict[str, str]:
+        """从响应头中解析并返回Cookies。"""
+        cookie_header = self.headers.get("Set-Cookie", "")
+        if isinstance(cookie_header, list):
+            cookie_header = ", ".join(cookie_header)
+        cookies = SimpleCookie()
+        cookies.load(cookie_header)
+        return {key: morsel.value for key, morsel in cookies.items()}
+    @property
+    def meta(self) -> Dict:
+        """获取关联的 Request 对象的 meta 字典。"""
+        return self.request.meta if self.request else {}
+    def __str__(self):
         return f"<{self.status_code} {self.url}>"

crawlo 1.1.9__py3-none-any.whl → 1.2.1__py3-none-any.whl

Potentially problematic release.

crawlo 1.1.9py3-none-any.whl → 1.2.1py3-none-any.whl