自学python如何找到好的老师

Python 已经成为一种再主流不过的编程语言了。许多同学开始学习它，又不知道该如何入手，需要依据每个人的情况来决定，想要自学python对各方面有一定要求的，比如说基础好、自学能力强、理解能力强，这种情况是可以选择自学python的。爬虫自学重点就是需要掌握数据抓取、数据提取、数据存储、爬虫并发、动态网页抓取、scrapy框架、分布式爬虫、爬虫攻防、数据结构、算法等知识。很多自学python的同学收集了很多的学习网站，关注了很多python博主，但是却不知道应该选择哪个进行深入的学习。

b站一直都是很受年轻人喜欢的学习网站，各行各业都有在上面学习和分享，也是很多学习python小伙伴的首选。今天我们就通过python爬取b站上自学python哪个老师是最优的选择为需求，来实践一波爬虫操作，主要需求就是获取B站python有关视频排行榜的一些数据，例如标题、UP主、BV号、播放量、弹幕量、评论量、综合得分等数据。

经过简单的网站分析，b站有封IP的反爬机制，这里就需要使用到爬虫代理IP的辅助。b站也是需要进行登录后才能进一步操作的，这里我们就需要考虑到如何控制IP的使用。可以通过设置Proxy-Connection: Keep-Alive和Connection: Keep-Alive可以保持请求在一个TCP会话中，保持代理IP不变。实现过程如下：

代码语言：javascript复制

 #! -*- encoding:utf-8 -*-
    import requests
    import random
    import requests.adapters

    # 要访问的目标页面
    targetUrlList = [
        "https://www.bilibili.com/",
        "https://www.bilibili.com/",
        "https://www.bilibili.com/",
    ]

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "16HGRRIK"
    proxyPass = "458687"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host": proxyHost,
        "port": proxyPort,
        "user": proxyUser,
        "pass": proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http": proxyMeta,
        "https": proxyMeta,
    }

    #  设置IP切换头
    tunnel = random.randint(1, 10000)
    headers = {"Proxy-Tunnel": str(tunnel)}


    class HTTPAdapter(requests.adapters.HTTPAdapter):
        def proxy_headers(self, proxy):
            headers = super(HTTPAdapter, self).proxy_headers(proxy)
            if hasattr(self, 'tunnel'):
                headers['Proxy-Tunnel'] = self.tunnel
            return headers


    # 访问三次网站，使用相同的tunnel标志，均能够保持相同的外网IP
    for i in range(3):
        s = requests.session()

        a = HTTPAdapter()

        #  设置IP切换头
        a.tunnel = tunnel
        s.mount('https://', a)

        for url in targetUrlList:
            r = s.get(url, proxies=proxies)

python 爬虫

0 人点赞