PyPI - crawlo - Versions diffs - 1.0.3__py3-none-any.whl → 1.0.5__py3-none-any.whl - Mend

crawlo 1.0.3py3-none-any.whl → 1.0.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of crawlo might be problematic. Click here for more details.

Files changed (96) hide show

crawlo/__init__.py +25 -9
crawlo/__version__.py +1 -1
crawlo/core/__init__.py +2 -2
crawlo/core/engine.py +158 -158
crawlo/core/processor.py +40 -40
crawlo/core/scheduler.py +57 -57
crawlo/crawler.py +424 -242
crawlo/downloader/__init__.py +78 -78
crawlo/downloader/aiohttp_downloader.py +200 -259
crawlo/downloader/cffi_downloader.py +277 -0
crawlo/downloader/httpx_downloader.py +246 -187
crawlo/event.py +11 -11
crawlo/exceptions.py +73 -64
crawlo/extension/__init__.py +31 -31
crawlo/extension/log_interval.py +49 -49
crawlo/extension/log_stats.py +44 -44
crawlo/extension/logging_extension.py +35 -0
crawlo/filters/__init__.py +37 -37
crawlo/filters/aioredis_filter.py +150 -158
crawlo/filters/memory_filter.py +202 -202
crawlo/items/__init__.py +62 -62
crawlo/items/items.py +115 -119
crawlo/middleware/__init__.py +21 -21
crawlo/middleware/default_header.py +32 -32
crawlo/middleware/download_delay.py +28 -28
crawlo/middleware/middleware_manager.py +135 -140
crawlo/middleware/proxy.py +246 -0
crawlo/middleware/request_ignore.py +30 -30
crawlo/middleware/response_code.py +18 -18
crawlo/middleware/response_filter.py +26 -26
crawlo/middleware/retry.py +90 -90
crawlo/network/__init__.py +7 -7
crawlo/network/request.py +203 -204
crawlo/network/response.py +166 -166
crawlo/pipelines/__init__.py +13 -13
crawlo/pipelines/console_pipeline.py +39 -39
crawlo/pipelines/mongo_pipeline.py +116 -116
crawlo/pipelines/mysql_batch_pipline.py +273 -134
crawlo/pipelines/mysql_pipeline.py +195 -195
crawlo/pipelines/pipeline_manager.py +56 -56
crawlo/settings/__init__.py +7 -7
crawlo/settings/default_settings.py +169 -93
crawlo/settings/setting_manager.py +99 -99
crawlo/spider/__init__.py +41 -36
crawlo/stats_collector.py +59 -59
crawlo/subscriber.py +106 -106
crawlo/task_manager.py +27 -27
crawlo/templates/item_template.tmpl +21 -21
crawlo/templates/project_template/main.py +32 -32
crawlo/templates/project_template/setting.py +189 -189
crawlo/templates/spider_template.tmpl +30 -30
crawlo/utils/__init__.py +7 -7
crawlo/utils/concurrency_manager.py +124 -124
crawlo/utils/date_tools.py +233 -177
crawlo/utils/db_helper.py +344 -0
crawlo/utils/func_tools.py +82 -82
crawlo/utils/log.py +129 -39
crawlo/utils/pqueue.py +173 -173
crawlo/utils/project.py +59 -59
crawlo/utils/request.py +267 -122
crawlo/utils/system.py +11 -11
crawlo/utils/tools.py +5 -303
crawlo/utils/url.py +39 -39
{crawlo-1.0.3.dist-info → crawlo-1.0.5.dist-info}/METADATA +49 -48
crawlo-1.0.5.dist-info/RECORD +84 -0
{crawlo-1.0.3.dist-info → crawlo-1.0.5.dist-info}/top_level.txt +1 -0
examples/__init__.py +0 -0
examples/gxb/__init__.py +0 -0
examples/gxb/items.py +36 -0
examples/gxb/run.py +15 -0
examples/gxb/settings.py +71 -0
examples/gxb/spider/__init__.py +0 -0
examples/gxb/spider/miit_spider.py +180 -0
examples/gxb/spider/telecom_device_licenses.py +129 -0
tests/__init__.py +7 -7
tests/test_proxy_health_check.py +33 -0
tests/test_proxy_middleware_integration.py +137 -0
tests/test_proxy_providers.py +57 -0
tests/test_proxy_stats.py +20 -0
tests/test_proxy_strategies.py +60 -0
crawlo/downloader/playwright_downloader.py +0 -161
crawlo/filters/redis_filter.py +0 -120
crawlo-1.0.3.dist-info/RECORD +0 -80
tests/baidu_spider/__init__.py +0 -7
tests/baidu_spider/demo.py +0 -94
tests/baidu_spider/items.py +0 -25
tests/baidu_spider/middleware.py +0 -49
tests/baidu_spider/pipeline.py +0 -55
tests/baidu_spider/request_fingerprints.txt +0 -9
tests/baidu_spider/run.py +0 -27
tests/baidu_spider/settings.py +0 -78
tests/baidu_spider/spiders/__init__.py +0 -7
tests/baidu_spider/spiders/bai_du.py +0 -61
tests/baidu_spider/spiders/sina.py +0 -79
{crawlo-1.0.3.dist-info → crawlo-1.0.5.dist-info}/WHEEL +0 -0
{crawlo-1.0.3.dist-info → crawlo-1.0.5.dist-info}/entry_points.txt +0 -0

tests/baidu_spider/pipeline.py DELETED Viewed

@@ -1,55 +0,0 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-import pymongo
-from motor.motor_asyncio import AsyncIOMotorClient
-from random import randint
-from crawlo.event import spider_closed
-from crawlo.exceptions import ItemDiscard
-from crawlo.utils.log import get_logger
-class TestPipeline(object):
-    async def process_item(self, item, spider):
-        if randint(1, 3) == 1:
-            raise ItemDiscard('重复数据')
-        return item
-    @classmethod
-    def create_instance(cls, *args, **kwargs):
-        return cls()
-class MongoPipeline(object):
-    def __init__(self, conn, col):
-        self.conn = conn
-        self.col = col
-        self.logger = get_logger(self.__class__.__name__)
-    @classmethod
-    def create_instance(cls, crawler):
-        settings = crawler.settings
-        mongo_params = settings.get('MONGODB_PARAMS', None)
-        db_name = settings.get('MONGODB_DB', None)
-        project_name = settings.get('PROJECT_NAME', None)
-        conn = AsyncIOMotorClient(**mongo_params) if mongo_params else AsyncIOMotorClient()
-        col = conn[db_name][project_name]
-        o = cls(conn, col)
-        crawler.subscriber.subscribe(o.spider_closed, event=spider_closed)
-        return o
-    async def process_item(self, item, spider):
-        await self.col.insert_one(item.to_dict())
-        return item
-    async def spider_closed(self):
-        self.logger.info('MongoDB closed.')
-        self.conn.close()

tests/baidu_spider/request_fingerprints.txt DELETED Viewed

@@ -1,9 +0,0 @@
-48e727ce8566d65e5233eaac29498b03e2908dd78a90dad7fdd7510e8ada9e32
-c5e78d04ca9b1113e6a8076792aaa7b09ff4b040bd790c684689745aa7edb1ae
-8287f5ad5e2f06687e88cc31d64fdbd3b1b56cee71fbc3344ad8cea852ea9dd3
-f84661b1d15a6e96c6a77a6484c173be3fb502f73e256e8f72f98982674a7992
-f5c1693afa1293e758331a8e95aa6277ffa49105ccd0d79115d8e85375863adc
-f6f2175b1ae909ac0dd41aa2ed735b8305dde6f92d51dd2e411a0c695cfc4843
-3ba6793c55838d267567f6b65b3406bbad30e89e187d3fbe88e6ae55db24dd9d
-488f1d28fe532f1113f634dfa58a2bccae1d34af5421e4064e2ae024d5010280
-dbf802098ea25af78c5751fdc750624296e79d9e1d968e33e5956860ebb5ecc7

tests/baidu_spider/run.py DELETED Viewed

@@ -1,27 +0,0 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-"""
-# @Time    :    2025-02-05 13:12
-# @Author  :   oscar
-# @Desc    :   None
-"""
-import asyncio
-from crawlo.crawler import CrawlerProcess
-# from crawlo.utils import system as _
-from tests.baidu_spider.spiders.bai_du import BaiDuSpider
-from crawlo.utils.project import get_settings
-from tests.baidu_spider.spiders.sina import SinaSpider
-async def main():
-    settings = get_settings()
-    process = CrawlerProcess(settings)
-    # await process.crawl(BaiDuSpider)
-    await process.crawl(SinaSpider)
-    await process.start()
-if __name__ == '__main__':
-    asyncio.run(main())
-    # 观看到第18集

tests/baidu_spider/settings.py DELETED Viewed

@@ -1,78 +0,0 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-PROJECT_NAME = 'baidu_spider'
-CONCURRENCY = 4
-USE_SESSION = True
-# 下载延迟
-DOWNLOAD_DELAY = 0.5
-RANDOMNESS = False
-# --------------------------------------------------- 公共MySQL配置 -----------------------------------------------------
-MYSQL_HOST = '43.139.14.225'
-MYSQL_PORT = 3306
-MYSQL_USER = 'picker'
-MYSQL_PASSWORD = 'kmcNbbz6TbSihttZ'
-MYSQL_DB = 'stock_pro'
-MYSQL_TABLE = 'articles'  # 可选，默认使用spider名称
-MYSQL_BATCH_SIZE = 500
-# asyncmy专属配置
-MYSQL_POOL_MIN = 5  # 连接池最小连接数
-MYSQL_POOL_MAX = 20  # 连接池最大连接数
-# 选择下载器
-# DOWNLOADER = "crawlo.downloader.httpx_downloader.HttpXDownloader"
-MIDDLEWARES = [
-    'crawlo.middleware.download_delay.DownloadDelayMiddleware',
-    'crawlo.middleware.default_header.DefaultHeaderMiddleware',
-    'crawlo.middleware.response_filter.ResponseFilterMiddleware',
-    'crawlo.middleware.retry.RetryMiddleware',
-    'crawlo.middleware.response_code.ResponseCodeMiddleware',
-    'crawlo.middleware.request_ignore.RequestIgnoreMiddleware',
-    # 'baidu_spider.middleware.TestMiddleWare',
-    # 'baidu_spider.middleware.TestMiddleWare2'
-]
-EXTENSIONS = [
-    'crawlo.extension.log_interval.LogIntervalExtension',
-    'crawlo.extension.log_stats.LogStats',
-]
-PIPELINES = [
-    'crawlo.pipelines.console_pipeline.ConsolePipeline',
-    'crawlo.pipelines.mysql_pipeline.AsyncmyMySQLPipeline',  # 或 AiomysqlMySQLPipeline
-    # 'crawlo.pipelines.mysql_batch_pipline.AsyncmyMySQLPipeline',  # 或 AiomysqlMySQLPipeline
-    # 'baidu_spider.pipeline.TestPipeline',
-    # 'baidu_spider.pipeline.MongoPipeline',
-]
-USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36'
-DEFAULT_HEADERS = {
-    "accept": "application/json, text/javascript, */*; q=0.01",
-    "accept-language": "zh-CN,zh;q=0.9,en;q=0.8",
-    "cache-control": "no-cache",
-    "pragma": "no-cache",
-    "priority": "u=1, i",
-    "sec-ch-ua": "\"Chromium\";v=\"136\", \"Google Chrome\";v=\"136\", \"Not.A/Brand\";v=\"99\"",
-    "sec-ch-ua-mobile": "?0",
-    "sec-ch-ua-platform": "\"macOS\"",
-    "sec-fetch-dest": "empty",
-    "sec-fetch-mode": "cors",
-    "sec-fetch-site": "same-origin",
-    # "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36",
-    "x-requested-with": "XMLHttpRequest"
-}
-# --------------------------------------DB ---------------------------------------------
-Mongo_Params = ''
-MONGODB_DB = 'news'
-CLEANUP_FP = True
-FILTER_CLASS = 'crawlo.filters.aioredis_filter.AioRedisFilter'
-# FILTER_CLASS = 'crawlo.filters.memory_filter.MemoryFileFilter'

tests/baidu_spider/spiders/__init__.py DELETED Viewed

@@ -1,7 +0,0 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-"""
-# @Time    :    2025-05-11 12:20
-# @Author  :   oscar
-# @Desc    :   None
-"""

tests/baidu_spider/spiders/bai_du.py DELETED Viewed

@@ -1,61 +0,0 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-"""
-# @Time    :    2025-02-05 13:05
-# @Author  :   oscar
-# @Desc    :   None
-"""
-import asyncio
-from crawlo import Request
-from crawlo.spider import Spider
-from items import BauDuItem
-class BaiDuSpider(Spider):
-    start_urls = ["https://www.baidu.com/", "https://www.baidu.com/"]
-    custom_settings = {
-        'CONCURRENCY': 1
-    }
-    name = "bai_du"
-    # headers = {
-    #     "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36"
-    # }
-    #
-    user_gent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36"
-    async def parse(self, response):
-        for i in range(5):
-            url = f"https://www.baidu.com"
-            # url = f"https://www.httpbin.org/404"
-            r = Request(url=url, callback=self.parse_page, dont_filter=True)
-            yield r
-    async def parse_page(self, response):
-        for i in range(5):
-            url = f"https://www.baidu.com"
-            meta = {'test': 'hhhh'}
-            r = Request(url=url, callback=self.parse_detail, meta=meta, dont_filter=False)
-            yield r
-    def parse_detail(self, response):
-        item = BauDuItem()
-        item['title'] = response.xpath('//title/text()').get()
-        item['url'] = response.url
-        yield item
-    async def spider_opened(self):
-        pass
-    async def spider_closed(self):
-        pass
-if __name__ == '__main__':
-    b = BaiDuSpider()
-    b.start_requests()

tests/baidu_spider/spiders/sina.py DELETED Viewed

@@ -1,79 +0,0 @@
-#!/usr/bin/python
-# -*- coding:UTF-8 -*-
-"""
-# @Time    :    2025-02-05 13:05
-# @Author  :   oscar
-# @Desc    :   None
-"""
-import time
-from crawlo import Request
-from crawlo.spider import Spider
-from crawlo.utils.date_tools import timestamp_to_datetime, format_datetime
-from tests.baidu_spider.items import ArticleItem
-class SinaSpider(Spider):
-    # 获取当前时间戳，并减去 10 分钟（600 秒）
-    current_time_minus_10min = int(time.time()) - 6000
-    # 构造 URL
-    url = f'https://news.10jqka.com.cn/tapp/news/push/stock/?page=1&tag=&track=website&ctime={current_time_minus_10min}'
-    start_urls = [url]
-    name = 'sina'
-    # mysql_table = 'news_10jqka'
-    allowed_domains = ['*']
-    def start_requests(self):
-        for url in self.start_urls:
-            yield Request(url=url, callback=self.parse, dont_filter=True)
-    async def parse(self, response):
-        jsonp_str = response.json()
-        rows = jsonp_str.get('data', {}).get('list', [])
-        for row in rows:
-            article_id = row.get('id')
-            title = row.get('title')
-            digest = row.get('digest')
-            short = row.get('short')
-            detail_url = row.get('url')
-            tag = row.get('tag')
-            ctime = row.get('ctime')
-            source = row.get('source')
-            meta = {
-                'article_id': article_id,
-                'title': title,
-                'digest': digest,
-                'short': short,
-                'detail_url': detail_url,
-                'source': source,
-                'tag': tag,
-                'ctime': timestamp_to_datetime(int(ctime))
-            }
-            yield Request(url=detail_url, callback=self.parse_detail, encoding='gbk', meta=meta)
-    @staticmethod
-    async def parse_detail(response):
-        item = ArticleItem()
-        meta = response.meta
-        content = ''.join(response.xpath('//*[@id="contentApp"]/p/text()').extract()).strip()
-        ctime = meta.get('ctime')
-        item['article_id'] = meta.get('article_id')
-        item['title'] = meta.get('title')
-        item['digest'] = content
-        item['short'] = meta.get('short')
-        item['url'] = meta.get('detail_url')
-        item['tag'] = meta.get('tag').strip()
-        item['ctime'] = format_datetime(ctime)
-        item['source'] = meta.get('source')
-        yield item
-    async def spider_opened(self):
-        pass
-    async def spider_closed(self):
-        pass

{crawlo-1.0.3.dist-info → crawlo-1.0.5.dist-info}/WHEEL RENAMED Viewed

File without changes

{crawlo-1.0.3.dist-info → crawlo-1.0.5.dist-info}/entry_points.txt RENAMED Viewed

File without changes

crawlo 1.0.3__py3-none-any.whl → 1.0.5__py3-none-any.whl

Potentially problematic release.

crawlo 1.0.3py3-none-any.whl → 1.0.5py3-none-any.whl