PyPI - crawlo - Versions diffs - 1.0.4__py3-none-any.whl → 1.0.5__py3-none-any.whl - Mend

crawlo 1.0.4py3-none-any.whl → 1.0.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of crawlo might be problematic. Click here for more details.

Files changed (95) hide show

crawlo/__init__.py +25 -9
crawlo/__version__.py +1 -1
crawlo/core/__init__.py +2 -2
crawlo/core/engine.py +158 -158
crawlo/core/processor.py +40 -40
crawlo/core/scheduler.py +57 -57
crawlo/crawler.py +424 -242
crawlo/downloader/__init__.py +78 -78
crawlo/downloader/aiohttp_downloader.py +200 -259
crawlo/downloader/cffi_downloader.py +277 -0
crawlo/downloader/httpx_downloader.py +246 -187
crawlo/event.py +11 -11
crawlo/exceptions.py +73 -64
crawlo/extension/__init__.py +31 -31
crawlo/extension/log_interval.py +49 -49
crawlo/extension/log_stats.py +44 -44
crawlo/extension/logging_extension.py +35 -0
crawlo/filters/__init__.py +37 -37
crawlo/filters/aioredis_filter.py +150 -150
crawlo/filters/memory_filter.py +202 -202
crawlo/items/__init__.py +62 -62
crawlo/items/items.py +115 -119
crawlo/middleware/__init__.py +21 -21
crawlo/middleware/default_header.py +32 -32
crawlo/middleware/download_delay.py +28 -28
crawlo/middleware/middleware_manager.py +135 -140
crawlo/middleware/proxy.py +246 -0
crawlo/middleware/request_ignore.py +30 -30
crawlo/middleware/response_code.py +18 -18
crawlo/middleware/response_filter.py +26 -26
crawlo/middleware/retry.py +90 -90
crawlo/network/__init__.py +7 -7
crawlo/network/request.py +203 -204
crawlo/network/response.py +166 -166
crawlo/pipelines/__init__.py +13 -13
crawlo/pipelines/console_pipeline.py +39 -39
crawlo/pipelines/mongo_pipeline.py +116 -116
crawlo/pipelines/mysql_batch_pipline.py +273 -134
crawlo/pipelines/mysql_pipeline.py +195 -195
crawlo/pipelines/pipeline_manager.py +56 -56
crawlo/settings/__init__.py +7 -7
crawlo/settings/default_settings.py +169 -94
crawlo/settings/setting_manager.py +99 -99
crawlo/spider/__init__.py +41 -36
crawlo/stats_collector.py +59 -59
crawlo/subscriber.py +106 -106
crawlo/task_manager.py +27 -27
crawlo/templates/item_template.tmpl +21 -21
crawlo/templates/project_template/main.py +32 -32
crawlo/templates/project_template/setting.py +189 -189
crawlo/templates/spider_template.tmpl +30 -30
crawlo/utils/__init__.py +7 -7
crawlo/utils/concurrency_manager.py +124 -124
crawlo/utils/date_tools.py +233 -177
crawlo/utils/db_helper.py +344 -0
crawlo/utils/func_tools.py +82 -82
crawlo/utils/log.py +129 -39
crawlo/utils/pqueue.py +173 -173
crawlo/utils/project.py +59 -59
crawlo/utils/request.py +267 -122
crawlo/utils/system.py +11 -11
crawlo/utils/tools.py +5 -303
crawlo/utils/url.py +39 -39
{crawlo-1.0.4.dist-info → crawlo-1.0.5.dist-info}/METADATA +49 -48
crawlo-1.0.5.dist-info/RECORD +84 -0
{crawlo-1.0.4.dist-info → crawlo-1.0.5.dist-info}/top_level.txt +1 -0
examples/__init__.py +0 -0
examples/gxb/__init__.py +0 -0
examples/gxb/items.py +36 -0
examples/gxb/run.py +15 -0
examples/gxb/settings.py +71 -0
examples/gxb/spider/__init__.py +0 -0
examples/gxb/spider/miit_spider.py +180 -0
examples/gxb/spider/telecom_device_licenses.py +129 -0
tests/__init__.py +7 -7
tests/test_proxy_health_check.py +33 -0
tests/test_proxy_middleware_integration.py +137 -0
tests/test_proxy_providers.py +57 -0
tests/test_proxy_stats.py +20 -0
tests/test_proxy_strategies.py +60 -0
crawlo/downloader/playwright_downloader.py +0 -161
crawlo-1.0.4.dist-info/RECORD +0 -79
tests/baidu_spider/__init__.py +0 -7
tests/baidu_spider/demo.py +0 -94
tests/baidu_spider/items.py +0 -25
tests/baidu_spider/middleware.py +0 -49
tests/baidu_spider/pipeline.py +0 -55
tests/baidu_spider/request_fingerprints.txt +0 -9
tests/baidu_spider/run.py +0 -27
tests/baidu_spider/settings.py +0 -80
tests/baidu_spider/spiders/__init__.py +0 -7
tests/baidu_spider/spiders/bai_du.py +0 -61
tests/baidu_spider/spiders/sina.py +0 -79
{crawlo-1.0.4.dist-info → crawlo-1.0.5.dist-info}/WHEEL +0 -0
{crawlo-1.0.4.dist-info → crawlo-1.0.5.dist-info}/entry_points.txt +0 -0

tests/baidu_spider/settings.py DELETED Viewed

@@ -1,80 +0,0 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-PROJECT_NAME = 'baidu_spider'
-CONCURRENCY = 4
-USE_SESSION = True
-# 下载延迟
-DOWNLOAD_DELAY = 0.5
-RANDOMNESS = False
-# --------------------------------------------------- 公共MySQL配置 -----------------------------------------------------
-MYSQL_HOST = '43.139.14.225'
-MYSQL_PORT = 3306
-MYSQL_USER = 'picker'
-MYSQL_PASSWORD = 'kmcNbbz6TbSihttZ'
-MYSQL_DB = 'stock_pro'
-MYSQL_TABLE = 'articles'  # 可选，默认使用spider名称
-MYSQL_BATCH_SIZE = 500
-# asyncmy专属配置
-MYSQL_POOL_MIN = 5  # 连接池最小连接数
-MYSQL_POOL_MAX = 20  # 连接池最大连接数
-# 选择下载器
-# DOWNLOADER = "crawlo.downloader.httpx_downloader.HttpXDownloader"
-MIDDLEWARES = [
-    'crawlo.middleware.download_delay.DownloadDelayMiddleware',
-    'crawlo.middleware.default_header.DefaultHeaderMiddleware',
-    'crawlo.middleware.response_filter.ResponseFilterMiddleware',
-    'crawlo.middleware.retry.RetryMiddleware',
-    'crawlo.middleware.response_code.ResponseCodeMiddleware',
-    'crawlo.middleware.request_ignore.RequestIgnoreMiddleware',
-    # 'baidu_spider.middleware.TestMiddleWare',
-    # 'baidu_spider.middleware.TestMiddleWare2'
-]
-EXTENSIONS = [
-    'crawlo.extension.log_interval.LogIntervalExtension',
-    'crawlo.extension.log_stats.LogStats',
-]
-PIPELINES = [
-    'crawlo.pipelines.console_pipeline.ConsolePipeline',
-    'crawlo.pipelines.mysql_pipeline.AsyncmyMySQLPipeline',  # 或 AiomysqlMySQLPipeline
-    # 'crawlo.pipelines.mysql_batch_pipline.AsyncmyMySQLPipeline',  # 或 AiomysqlMySQLPipeline
-    # 'baidu_spider.pipeline.TestPipeline',
-    # 'baidu_spider.pipeline.MongoPipeline',
-]
-USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36'
-DEFAULT_HEADERS = {
-    "accept": "application/json, text/javascript, */*; q=0.01",
-    "accept-language": "zh-CN,zh;q=0.9,en;q=0.8",
-    "cache-control": "no-cache",
-    "pragma": "no-cache",
-    "priority": "u=1, i",
-    "sec-ch-ua": "\"Chromium\";v=\"136\", \"Google Chrome\";v=\"136\", \"Not.A/Brand\";v=\"99\"",
-    "sec-ch-ua-mobile": "?0",
-    "sec-ch-ua-platform": "\"macOS\"",
-    "sec-fetch-dest": "empty",
-    "sec-fetch-mode": "cors",
-    "sec-fetch-site": "same-origin",
-    # "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36",
-    "x-requested-with": "XMLHttpRequest"
-}
-# --------------------------------------DB ---------------------------------------------
-Mongo_Params = ''
-MONGODB_DB = 'news'
-REDIS_TTL = 0
-CLEANUP_FP = False
-FILTER_CLASS = 'crawlo.filters.aioredis_filter.AioRedisFilter'
-# FILTER_CLASS = 'crawlo.filters.redis_filter.RedisFilter'
-# FILTER_CLASS = 'crawlo.filters.memory_filter.MemoryFileFilter'

tests/baidu_spider/spiders/__init__.py DELETED Viewed

@@ -1,7 +0,0 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-"""
-# @Time    :    2025-05-11 12:20
-# @Author  :   oscar
-# @Desc    :   None
-"""

tests/baidu_spider/spiders/bai_du.py DELETED Viewed

@@ -1,61 +0,0 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-"""
-# @Time    :    2025-02-05 13:05
-# @Author  :   oscar
-# @Desc    :   None
-"""
-import asyncio
-from crawlo import Request
-from crawlo.spider import Spider
-from items import BauDuItem
-class BaiDuSpider(Spider):
-    start_urls = ["https://www.baidu.com/", "https://www.baidu.com/"]
-    custom_settings = {
-        'CONCURRENCY': 1
-    }
-    name = "bai_du"
-    # headers = {
-    #     "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36"
-    # }
-    #
-    user_gent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36"
-    async def parse(self, response):
-        for i in range(5):
-            url = f"https://www.baidu.com"
-            # url = f"https://www.httpbin.org/404"
-            r = Request(url=url, callback=self.parse_page, dont_filter=True)
-            yield r
-    async def parse_page(self, response):
-        for i in range(5):
-            url = f"https://www.baidu.com"
-            meta = {'test': 'hhhh'}
-            r = Request(url=url, callback=self.parse_detail, meta=meta, dont_filter=False)
-            yield r
-    def parse_detail(self, response):
-        item = BauDuItem()
-        item['title'] = response.xpath('//title/text()').get()
-        item['url'] = response.url
-        yield item
-    async def spider_opened(self):
-        pass
-    async def spider_closed(self):
-        pass
-if __name__ == '__main__':
-    b = BaiDuSpider()
-    b.start_requests()

tests/baidu_spider/spiders/sina.py DELETED Viewed

@@ -1,79 +0,0 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-"""
-# @Time    :    2025-02-05 13:05
-# @Author  :   oscar
-# @Desc    :   None
-"""
-import time
-from crawlo import Request
-from crawlo.spider import Spider
-from crawlo.utils.date_tools import timestamp_to_datetime, format_datetime
-from tests.baidu_spider.items import ArticleItem
-class SinaSpider(Spider):
-    # 获取当前时间戳，并减去 10 分钟（600 秒）
-    current_time_minus_10min = int(time.time()) - 6000
-    # 构造 URL
-    url = f'https://news.10jqka.com.cn/tapp/news/push/stock/?page=1&tag=&track=website&ctime={current_time_minus_10min}'
-    start_urls = [url]
-    name = 'sina'
-    # mysql_table = 'news_10jqka'
-    allowed_domains = ['*']
-    def start_requests(self):
-        for url in self.start_urls:
-            yield Request(url=url, callback=self.parse, dont_filter=True)
-    async def parse(self, response):
-        jsonp_str = response.json()
-        rows = jsonp_str.get('data', {}).get('list', [])
-        for row in rows:
-            article_id = row.get('id')
-            title = row.get('title')
-            digest = row.get('digest')
-            short = row.get('short')
-            detail_url = row.get('url')
-            tag = row.get('tag')
-            ctime = row.get('ctime')
-            source = row.get('source')
-            meta = {
-                'article_id': article_id,
-                'title': title,
-                'digest': digest,
-                'short': short,
-                'detail_url': detail_url,
-                'source': source,
-                'tag': tag,
-                'ctime': timestamp_to_datetime(int(ctime))
-            }
-            yield Request(url=detail_url, callback=self.parse_detail, encoding='gbk', meta=meta)
-    @staticmethod
-    async def parse_detail(response):
-        item = ArticleItem()
-        meta = response.meta
-        content = ''.join(response.xpath('//*[@id="contentApp"]/p/text()').extract()).strip()
-        ctime = meta.get('ctime')
-        item['article_id'] = meta.get('article_id')
-        item['title'] = meta.get('title')
-        item['digest'] = content
-        item['short'] = meta.get('short')
-        item['url'] = meta.get('detail_url')
-        item['tag'] = meta.get('tag').strip()
-        item['ctime'] = format_datetime(ctime)
-        item['source'] = meta.get('source')
-        yield item
-    async def spider_opened(self):
-        pass
-    async def spider_closed(self):
-        pass

{crawlo-1.0.4.dist-info → crawlo-1.0.5.dist-info}/WHEEL RENAMED Viewed

File without changes

{crawlo-1.0.4.dist-info → crawlo-1.0.5.dist-info}/entry_points.txt RENAMED Viewed

File without changes

crawlo 1.0.4__py3-none-any.whl → 1.0.5__py3-none-any.whl

Potentially problematic release.

crawlo 1.0.4py3-none-any.whl → 1.0.5py3-none-any.whl