scrapy学习笔记十一 scrapy实战效率测评

2019-11-27 15:07:24 浏览数 (1)

近期用scrapy做了不少项目,先从一个简单的poi数据来做一个小分析:最终效率结果是4w个页面,在开启30个客户端的分布式下,半个小时完成。

1:电脑配置如下

i5–cpu。8G–内存。网速还行。(原谅这个名词)

2:测试

其中CONCURRENT_REQUESTS是进程数CONCURRENT_REQUESTS_PER_DOMAIN 单该站点同时多少进程可以爬

DOWNLOAD_DELAY 则是下载时延

测试一:

scrapy配置如下: 进程数4,时延0.1

代码语言:javascript复制
CONCURRENT_REQUESTS =  8
DOWNLOAD_DELAY = 0.1
CONCURRENT_REQUESTS_PER_DOMAIN = 4

效率如下:160页面每分钟。cpu 35% 内存 60~~100.网速 12 kb下载

测试二:

scrapy配置如下 :进程数64,时延0.1

代码语言:javascript复制
CONCURRENT_REQUESTS =  128
DOWNLOAD_DELAY = 0.1
CONCURRENT_REQUESTS_PER_DOMAIN = 64

效率如下:140页面每分钟。cpu 35% 内存 80.网速 12 kb下载

测试三:

scrapy配置如下 :进程数64,时延0.1

代码语言:javascript复制
CONCURRENT_REQUESTS =  128
DOWNLOAD_DELAY = 0.1
CONCURRENT_REQUESTS_PER_DOMAIN = 64

效率如下:140页面每分钟。cpu 35% 内存 80.网速 12 kb下载

测试四:

scrapy配置如下 :进程数64,时延0.5

代码语言:javascript复制
CONCURRENT_REQUESTS =  128
DOWNLOAD_DELAY = 0.5
CONCURRENT_REQUESTS_PER_DOMAIN = 64

效率如下:100页面每分钟。cpu 35% 内存 80.网速 8 kb下载

测试五:

scrapy配置如下 :进程数64,时延 1s

代码语言:javascript复制
CONCURRENT_REQUESTS =  128
DOWNLOAD_DELAY = 1
CONCURRENT_REQUESTS_PER_DOMAIN = 64

效率如下:50页面每分钟。cpu 30% 内存 75.网速 6 kb下载

截图如下:

原创文章,转载请注明: 转载自URl-team

本文链接地址: scrapy学习笔记十一 scrapy实战效率测评

Related posts:

  1. Scrapy-笔记一 入门项目 爬虫抓取w3c网站
  2. Scrapy-笔记二 中文处理以及保存中文数据
  3. Scrapy笔记三 自动多网页爬取-本wordpress博客所有文章
  4. Scrapy笔记五 爬取妹子图网的图片 详细解析
  5. Scrapy笔记零 环境搭建与五大组件架构
  6. scrapy笔记六 scrapy运行架构的实例配合解析

0 人点赞