爬虫在运行过程会出现各种报错的问题,比如当我们在进行网络爬虫的时候,一般都是先进行网站的访问才能够正常的进行数据的获取,但是有的时候进行网站的访问的时候,总是会出现请求超时的情况。这个就可能是因为网络状况不好或者是服务器的网络出现延迟导致的我们访问请求超时。或者又是在进行网络端口连接的时候时间的延迟也会导致或者是在请求量比较大,目标网站承重量有限的情况下可能会出现下面这种报错。
代码语言:javascript复制Max retries exceeded with url:...... Connection to www.xxxx.com timed out
想要来进行解决这个问题,我们可以通过设置timeout()来使得响应速度加快,我们可以将这个方法添加在requests.get()语句中,来限制请求的时间,举子例子,代码如下所示:
代码语言:javascript复制req = requests.get(url, headers=headers, proxies=proxies, timeout=(3,7))
还有在爬虫程序里面添加了代理,但是爬取数据量比较大的情况下出现了超时,降低请求量或限制速度都不是好的选择,为了能解决报错和按量采集数据,可以通过增加代理IP的量来解决。高并发的代理IP如何在爬虫程序里面实现,这里附带亿牛云动态转发高请求支持下的爬虫过程:
代码语言:javascript复制 #! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text