“
阅读本文大概需要 3 分钟。
”
大家好!我是崔庆才。
大家可能知道我在去年年底刚刚出版了《Python3网络爬虫开发实战(第二版)》,短短几个月来,现在已经印刷四次,售出约三万册。
为了感谢大家的支持,同时也继续宣传下这本书,我来做赠书活动啦,一共送 10 本,活动为期一周。
书籍简介
没错,就是这本:
我个人于 2015 年研究 Python 爬虫技术,并于 2018 年出版了个人第一版爬虫书《Python3 网络爬虫开发实战》,出版至今,此本书一直处于市面上所有爬虫书的销冠位置,销量 10w 册,豆瓣评分 9.0。
Python 爬虫技术的基本内容包括网页基础分析、requests 请求、XPath 和正则解析、Ajax 分析、Selenium 模拟浏览器爬取、Scrapy 等知识点,但技术不是一成不变的,随着近几年时代的发展,一些新兴爬虫技术如异步爬虫、JavaScript 逆向、AST 技术、安卓逆向、Hook、智能解析、WebAssembly、大规模分布式、Docker、Kubernetes 等技术不断涌现,而现在网上的爬虫文章也存在着极大问题,一个是内容泛滥不堪、同质化严重,另一个是几乎没有几篇博文能紧跟前沿技术,多数还停留在几年前的水平,而且很多爬虫教程所用案例已经非常老旧而且多数也无法运行,这极大地打击了初学者的自信心。
是的,所以在 2021 年底,我又出版了《Python3 网络爬虫开发实战(第二版)》,对旧的爬虫技术内容进行了全面更新,搭建了全新的案例平台进行全面讲解,
目前截止 2022 年,可以将爬虫基本技术进行系统讲解,同时将最新前沿爬虫技术如异步、JavaScript 逆向、AST、安卓逆向、Hook、智能解析、群控技术、WebAssembly、大规模分布式、Docker、Kubernetes 等,市面上目前应该就仅有这本《Python3 网络爬虫开发实战(第二版)》可以做到了。
第二版更新内容
大家第一个问题可能就会问,第二版比第一版更新了哪些内容?
因为技术总是在不断发展和进步的,爬虫技术也是一样,它在爬虫和反爬虫不断斗争的过程中也在不断演进。比如现在越来越多的网页采取了各种防护措施,比如前端代码的压缩和混淆、API 的参数加密、WebDriver 的检测,要做到高效的数据爬取,我们就需要懂得一些 JavaScript 逆向分析相关技术。App 也是一样,App 的抓包防护、加壳保护、Native 化、风控检测使得越来越多的 App 数据难以爬取,所以我们也不得不了解一些逆向相关技术,如 Xposed、Frida、IDA Pro 等工具的使用。除此之外,近几年深度学习和人工智能发展得也是如火如荼,所以爬虫也可以和人工智能结合起来,比如基于深度学习的验证码识别、网页内容的智能化解析和提取等技术我们也可以进行学习和了解。另外,一些大规模爬虫的管理和运维技术也在不断发展,当前 Kubernetes、Docker、Prometheus 等云原生技术也非常火爆,基于 Kubernetes 等云原生技术的爬虫管理和运维解决方案也已经很受青睐。然而,之前第一版书对以上提到的这些新兴技术几乎没有提及。
除此之外,第一版书在讲解数据爬取的过程中引用了很多案例和服务,比如猫眼电影网站、淘宝网站、代理服务网站,然而几年过去了,有些案例网站和服务早已经改版或者停止维护,这就导致第一版书中的很多案例已经不能正常运行了。这其实是一个很大的问题,因为程序运行不通会大大降低学习的积极性和成就感,而且会浪费不少时间。另外,即使案例对应的爬虫代码及时更新了,那我们也不知道这些案例网站和服务什么时候会再次改版,因为这都是不可控的。所以,为了彻底解决这个问题,我花费了近半年的时间构建了一个爬虫案例平台(https://scrape.center),平台包含了几十个爬虫案例,包括服务端渲染(SSR)网站、单页面应用(SPA)网站、各类反爬网站、验证码网站、模拟登录网站、各类 App 等,覆盖了现在爬虫和反爬虫相关的大多数技术,整个平台都是我来维护的,书中几乎所有案例都是从案例平台来的,从而解决了页面改版的问题。
所以,本书相比第一版来说,更新的内容主要如下:
- 绝大多数都迁移到了自建的案例平台,以后再也不用担心案例有过期或改版问题。
- 替换了原本第一章环境安装的章节,将环境配置的部分全部汇总并迁移到案例平台(https://setup.scrape.center)并在书中以外链的形式附上,以确保环境的配置和安装说明能够被及时更新。
- 增加了一些新的请求库、解析库、存储库等的介绍,如 httpx、parsel、Elasticsearch 等库的介绍。
- 增加了异步爬虫的介绍,如协程的基本原理、aiohttp 的使用和爬取实战介绍。
- 增加了一些新兴自动化工具的介绍,如 Pyppeteer、Playwright 的介绍。
- 增加了深度学习相关内容,如图形验证码、滑动验证码的识别方案。
- 丰富了模拟登录章节的内容,如增加了 JWT 模拟登录的介绍和实战、大规模账号池的优化。
- 增加了 JavaScript 逆向的章节,包括网站加密和混淆技术、JavaScript 逆向调试技巧、JavaScript 的各种模拟执行方式、AST 还原混淆代码、WebAssembly 等相关技术的介绍。
- 丰富了 App 自动化爬取技术的章节,如新兴框架 Airtest 的介绍、手机群控和云手机技术的介绍。
- 增加了 Android 逆向章节,如反编译、反汇编、Hook、脱壳、so 文件分析和模拟执行等技术的介绍。
- 增加了网页智能化解析章节,包括列表页、详情页内容提取算法和分类算法。
- 丰富了 Scrapy 相关章节的介绍,如 Pyppeteer 的对接、RabbitMQ 的对接、Prometheus 的对接等。
- 增加了基于 Kubernetes、Docker、Prometheus、Grafana 等云原生技术爬虫管理和运维解决方案的介绍。
以上就是第二版的主要更新内容。
可以直接看第二版吗?
当然,有朋友也会担心,我需不需要先学习第一版,然后才能学第二版呢?
答案是:可以直接学第二版,第二版书爬虫的内容知识体系是完整的,一些旧的技术已经在第一版中移除,第二版的书籍是对所有爬虫知识体系的全新升级。
没有基础可以学吗?
有朋友也可能会问,没有爬虫或者 Python 基础可以学吗?
答案是:可以,本书就是专为零爬虫基础的朋友准备的,本书从最基础的环境配置、基础知识的讲解开始,循序渐进地对爬虫的各个知识点进行介绍,所以完全不用担心没有爬虫基础学不会的问题。如果没有 Python 基础,那也没关系(当然有会更好),书中也会提及 Python 环境的配置并附上一些 Python 入门学习资料(链接),同时也会通过各个 Python 代码片段来进行讲解,很多案例也很简单易懂,学爬虫的时候 Python 也就会逐渐掌握了。
大咖推荐
这本书同时还获得了 Python 之父的推荐(没错就是 Python 的创始人,Guido van Rossum)。另外我还有幸获得了微软亚洲互联网工程院副院长曾文峰、知名爬虫专家梁斌penny、中国人民大学高瓴人工智能学院长聘副教授宋睿华的推荐。
下面是推荐语的内容:
章节介绍
为了让大家更直接地了解到全书的内容,这里就直接放目录了:
没错!全书一共 900 多页,有4.3 厘米厚,定价是 139.8 元。
有没有电子版?
看到这里,大家可能也会问了,有没有电子版呢?可能有的朋友习惯用电子版书籍来学习,有的朋友可能在海外也不方便购买,所以想要电子版。
但还是很遗憾地说:没有电子版。
因为你知道的,如果出了电子版,那么马上就会有各种盗版袭来,网上也会造成各种恶意传播。
所以,为了保护版权,这本书是没有上电子版的。
购买链接
到哪里能够买到呢?
如果大家想直接购买的话,可以到京东购买,链接为:https://item.jd.com/13527222.html
现在 618 活动啦!从 6.17 晚上 8 点开始,图灵的很多书都是每满 100 减 50,另外还有满 400 减 40 的券,基本上 160 元就能买到 400 元的书了。
当然这本书也参与活动啦~
为了方便购买,我把这个链接转成了二维码,大家可以直接扫码购买:
送书活动
之前为了这个送书活动,我特意开发了一个系统,感觉用起来还不错。
大家想获取书籍的可以参与获得自己的参与码,然后可以让朋友帮忙助力增加人气值,最终人气值前 10 名即可获得 《Python3 网络爬虫开发实战(第二版)》签名书一本。
参与直接扫描下方二维码即可:
扫码之后可以显示个人的序列号和人气值,然后大家可以转发让大家助力即可。
另外每个人的助力页面最下方会有全局的人气值榜哈,大家就知道前几名有多少人气了~
活动截止时间是 2022 年 6 月 24 日 23:59,届时我会按照人气值榜前 10 名为准进行赠书哈。
P.S. 由于这个系统是我个人开发的,不能保证 100% 稳定,如果大家遇到问题,请随时添加我个人微信「CQCcqc」交流。
星球送书
另外除了上面这个活动,还有一个稳定获取签名版书籍的方法,就是加入我的个人知识星球,加入之后按照置顶公告登记地址即可,我会每周四安排发货的。
另外我的星球里面也会给大家分享一些个人感悟,给大家解答一些问题,具体可以见:我创办了一个知识星球
星球地址:
活动支持
在这里我需要特别感谢下「阿斯云」和「快代理」和「K哥爬虫」的大力支持!
- 阿斯云是一家专门做云服务器的厂商,提供高速、稳定、安全、弹性的 ADSL 拨号主机服务和云计算服务,也是我个人一直在用的拨号主机服务,稳定性一直不错,大家如果有拨号主机需求欢迎到阿斯云官网 https://www.asiyun.cn/ 选购。
- 快代理创立于 2013 年,专注代理服务器领域,服务了 2000 公司和 30000 开发者,为企业和开发者提供高品质的 HTTP/HTTPS/Socks 代理 IP 云服务,每天代理 IP 超 20万个,提供完备的 API 接口和 SDK,赋能于大规模数据采集,大家如有代理需求欢迎到快代理 https://www.kuaidaili.com/ 选购。
- K哥爬虫是个很不错的爬虫领域公众号,为爬虫爱好者分享有深度的爬虫技术,尤其是逆向技术,强烈推荐大家关注下。