代理IP的出现让我们很多的营销工作做得更便利,对于爬虫工作者来有利于数据爬取的工作效率大幅度提升。但是我们也会遇到在使用了代理IP后出现了延迟高不稳定的情况。这是为什么呢?下面就来详细的说一说。
有些用户在使用代理IP时会反馈,代理IP延迟较高,导致数据的采集量下降,甚至造成掉线等情况。那么什么情情况下会出现代理ip延迟高呢?我们来分析性下原因:
1、你使用的这个代理ip池的服务器使用的人数较多,或者在使用高峰期,超过了服务器的承载能力,就会延迟较高影响了用户的正常使用;
2、客户端网络不佳,自行的网络环境问题,稍微有点波动,就会导致延迟升高。
3、要访问的目标网站不稳定,比如那种反扒很严的网站或跨国网站;
4、代理IP服务器网络环境不佳,比如不是BGP链路,无法为用户提供稳定的速度;
以上这些原因都可能会导致代理ip的延迟很高,所以我们在寻找代理的时候,一定要选择高质量代理供应商,网络的关于代理的广告太多,很多都是夸大其词,所以做好的方法是实际测试对比。代理的测试也是很简单的事,比如亿牛云代理的使用,直接在后台注册掌柜下单就能解决,测试的过程也比较简单,这里我们可以分享给大家参考下:
代码语言:javascript复制#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text