近期用scrapy做了不少项目,先从一个简单的poi数据来做一个小分析:最终效率结果是4w个页面,在开启30个客户端的分布式下,半个小时完成。
1:电脑配置如下
i5–cpu。8G–内存。网速还行。(原谅这个名词)
2:测试
其中CONCURRENT_REQUESTS是进程数CONCURRENT_REQUESTS_PER_DOMAIN 单该站点同时多少进程可以爬
DOWNLOAD_DELAY 则是下载时延
测试一:
scrapy配置如下: 进程数4,时延0.1
代码语言:javascript复制CONCURRENT_REQUESTS = 8
DOWNLOAD_DELAY = 0.1
CONCURRENT_REQUESTS_PER_DOMAIN = 4
效率如下:160页面每分钟。cpu 35% 内存 60~~100.网速 12 kb下载
测试二:
scrapy配置如下 :进程数64,时延0.1
代码语言:javascript复制CONCURRENT_REQUESTS = 128
DOWNLOAD_DELAY = 0.1
CONCURRENT_REQUESTS_PER_DOMAIN = 64
效率如下:140页面每分钟。cpu 35% 内存 80.网速 12 kb下载
测试三:
scrapy配置如下 :进程数64,时延0.1
代码语言:javascript复制CONCURRENT_REQUESTS = 128
DOWNLOAD_DELAY = 0.1
CONCURRENT_REQUESTS_PER_DOMAIN = 64
效率如下:140页面每分钟。cpu 35% 内存 80.网速 12 kb下载
测试四:
scrapy配置如下 :进程数64,时延0.5
代码语言:javascript复制CONCURRENT_REQUESTS = 128
DOWNLOAD_DELAY = 0.5
CONCURRENT_REQUESTS_PER_DOMAIN = 64
效率如下:100页面每分钟。cpu 35% 内存 80.网速 8 kb下载
测试五:
scrapy配置如下 :进程数64,时延 1s
代码语言:javascript复制CONCURRENT_REQUESTS = 128
DOWNLOAD_DELAY = 1
CONCURRENT_REQUESTS_PER_DOMAIN = 64
效率如下:50页面每分钟。cpu 30% 内存 75.网速 6 kb下载
截图如下:
原创文章,转载请注明: 转载自URl-team
本文链接地址: scrapy学习笔记十一 scrapy实战效率测评
Related posts:
- Scrapy-笔记一 入门项目 爬虫抓取w3c网站
- Scrapy-笔记二 中文处理以及保存中文数据
- Scrapy笔记三 自动多网页爬取-本wordpress博客所有文章
- Scrapy笔记五 爬取妹子图网的图片 详细解析
- Scrapy笔记零 环境搭建与五大组件架构
- scrapy笔记六 scrapy运行架构的实例配合解析