scrapy爬取免费代理IP存储到数据库构建自有IP池

2018-01-31 14:06:59 浏览数 (1)

有一部分网站是通过检测同一IP短时间内多次访问同一页面来进行反爬虫，为了应对这种反爬虫机制，使用IP代理就可以解决。可以利用scrapy写一个爬虫，爬取网上免费公开的代理ip，检测后全部保存起来。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib2中很容易做到，这样就能很容易的绕过这种反爬虫机制。下面就详细说明一下scrapy抓取免费代理IP构建自有的代理IP池的过程：

以抓取西刺代理网站的高匿IP并存储到mysql数据库为例

西刺网：http://www.xicidaili.com/nn/