python爬虫中如何获取cookie和添加代理池

2023-07-04 15:33:56 浏览数 (2)

网站反爬机制的是日常爬虫中要解决的基础问题,其中一项就是通过添加cookie,因为我们在访问网站的时候大多数都是需要带cookie的,为什么要有这个呢?其实可以理解成我们在这个网站的临时身份证,为什么是说是临时的呢,因为cookie是存在有效期的,这个有效期各个网站都是不同的,要取决于这个网站本身。

而且,有很多网站都是需要登录才可以的,经过登陆验证之后,就会给你返回一个cookie,这样子在你接下来的固定时间内,你再该网站的所有操作,都是携带着cookie来进行的。

当我们访问某些需要登录才能访问到指定用户名密码的时候,就需要我们携带cookie才能访问了,这个时候我们可以先用浏览器登录上,并访问下指定页面,检查下他携带的cookie信息是什么,然后将其cookie复制出来,放到我们的代码中,比如我们可以通过python来获取访问的cookie信息,如下代码示例:

代码语言:javascript复制
import sqlite3

# 连接到cookie数据库
conn = sqlite3.connect('C:\Users\[用户名]\AppData\Local\Google\Chrome\User Data\Default\Cookies')

# 查询cookie信息
cursor = conn.execute('SELECT host_key, name, value FROM cookies')

# 输出查询结果
for row in cursor:
    print(row)

上面我们了解了如何获取cookie并使用,接下来就是代理的使用问题,在爬取过程中只有将这两个结合起来才能更有效的爬取数据。关于代理池之前分享了很多,网上也有很多的代理商,免费的付费的都有,根据自己的需求选择就可以,如果网站对IP的质量要求比较高的,这里推荐付费代理亿牛云,特别是他们看家的隧道爬虫代理,这里也简单的分享下他们家隧道代理的使用demo:

代码语言:javascript复制
    #! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

0 人点赞