前言:
关于学习爬虫类的问题,有不少小伙伴问我。爬虫类问题说简单也简单,难也难,这取决于你想爬取的网站的反爬机制。
如果是仅仅的想说,学习某个技能,你无从下手,我一直以来比较推荐的你一个学习机制就是结果导向,那么学习爬虫的最终结果就是你掌握了里面的知识,并且成功爬取了某些网站。
在爬虫和反爬中,目前来看,各种招式都是穷尽的。如果说能学习了各种反爬的解决方案,那么以后遇到爬虫类问题,八九不离十的都可以解决。
练习:
现在我推荐两个网站,都是大佬自己开发的网站,专门提供来小白来学习爬虫技能使用。所以不需要担心有什么风险问题,这两个网站是专门开发了让你怕的。
1.scrape.center
这里介绍的第一个网站是 https://scrape.center 意思名爬取中心,是一个微软的大佬自主开发的。这上面包含了,常见的验证码、登录状态验证、WebDriver 反爬、IP限制等等有53种类型的网站和App。
重点是在每个类型中都注明反爬机制,可以给你直奔主题,节约查找反扒方式时间扎。如果这些问题都能解决,那么以后的爬虫问题都能解决的八九不离十。当然,作者也出了一个配套的教学课程,实在不会了可以看参考答案,不过我还是建议,都自己搞定最好。
2.glidedsky
第二个网站是http://www.glidedsky.com,意思是镀金的天空,也是某个大佬自己开发的。
这个网站玩法不一样,有点像超级玛丽一样,需要一关关的过。不像是上一个,53个问题全部给出了,glidedsky中只有解决了第一个问题,才会给出第第二个(多个)问题。
从目前的排行榜上看,已经是有14个问题,并且现在有10位小伙伴已经通关了。
如果说你想学习爬虫的相关只是,把这67个问题都搞定了,那么可以成为一个初级爬虫工程师。不过单靠这个找工作可能还有点难,现在要求的都是复合性技能,不过至少能给你在面试种加分。
在上周日的直播分享中,我在这个网站上已经闯关到第三关了,后面有空分享一下解决方案。看看我最后可以闯关到第几关。
好了,今天的分享就到这里,感兴趣的小伙伴可以去试试。
我是马拉松程序员,可不止于代码。