让爬虫更加友好

2019-01-29 09:49:13 浏览数 (3)

写一个爬虫去互联网上采集数据这件事情，看似好像对别人没有坏处，其实如果爬虫不断的去爬数据的话，会给爬取对象的网站造成很大的压力。所以我们往往会限制爬虫爬取的速度。

之前最原始不用框架爬取交大的图书馆数据，后来整个实验室不能上图书馆的网了；使用了scrapy框架之后，没有做限速设置，后来又这样了。这次又改了一下。

在spider同级目录下有一个settings.py文件，其中有一个配置，AUTOTHROTTLE_ENABLED=True.默认情况下这个是被注释掉的。这个功能一打开，scrapy会自动检测最合适的限制速度，很神奇的机制哦。

于是我又把我的爬虫放出去了，看看还会不会被屏蔽。

0 人点赞