上一期博客,我本来想爬取美团美食的,但是由于请求头太复杂,没有破解开其中的几个参数,所以放弃,这次我们来用selenium来模式浏览器抓取数据,我们先来简单看一下流程:
1,利用selenium驱动浏览器,得到美食列表
2,分析网页,并给予翻页后续的美食列表
3,分析提取数据(pyQuery)
项目一:美团美食
项目地址:https://gitee.com/dwyui/pyQuery_selenium.git
由于美团反扒严重,只爬取到部分数据,可以尝试修改间隔时间来多次尝试。
也可以自己尝试使用PhantomJS来爬取数据,和原来的代码几乎一致.
最近搞了一个个人公众号,会每天更新一篇原创博文,java,python,自然语言处理相关的知识有兴趣的小伙伴可以关注一下。