因为最近接到一位小朋友的订单,说需要爬取淘宝商品婴幼儿奶粉的评价信息制作词云图,所以做了一个爬虫小教程希望对大家有所帮助。
本次开发所用工具:Pycharm,谷歌浏览器
因为谷歌浏览器的抓包比较方便,所以推荐大家在爬虫过程中使用谷歌浏览器,Pycharm就不多解释了,个人认为是python开发最实用的工具之一了。
首先,基本爬虫过程分为三个步骤:1.分析目标网址;2.模拟浏览器发送请求,获取响应内容;3.解析响应内容并保存,提取数据。
- 分析目标网址 首先,我们打开谷歌浏览器,进入淘宝网,搜索婴幼儿奶粉,找到第一个商品,进入商品详情页,进入评论区,等页面完全加载完,鼠标右击检查。点击评论下一页,发现加载出来很多包,其中有一个list_detail_rate.htm包存放着评论信息,找到目标网址。接下来开始抓取评论。
- 模拟浏览器发送请求,获取响应内容 导入相关包
构造请求头
使用requests库获取网页内容并对网页进行处理
3.解析响应内容并保存
使用json库对网页文本进行解析,并使用for循环得到评价时间和评价内容
最后将这些数据保存到csv文件中,得到完整评价信息
这就是婴幼儿奶粉一页的评论信息,如果想获取多页评论信息,可以使用for循环遍历页数就可以了,建议速度不要太快,以免对服务器造成压力。大家有什么问题私聊我就可以了。