昨晚,女足16年后重夺亚洲杯,决赛落后两球,依然能保持对比赛的观察和思考,下半场从容调度人手,最后完成逆转。
打开微博一看,WC,微博推给我的第一条就是一篇瓜文。
这几天正好有的瓜,于是就爬了一下微博上女足夺冠的评论区,分析一下高频词汇什么的,分析大众心理哈哈哈…
爬取的链接:https://weibo.com/1749990115/LegA0AG9A
网页端前端页面比较复杂,还有加密数据,比较难操作。相对的来说,手机端和移动端比较好爬。
代码语言:javascript复制weibo.com // 网页端
m.weibo.cn // 手机端
weibo.cn // 移动端
将对应网页端的链接转化到了移动端:https://m.weibo.cn/detail/4734003288741850
特意去Google了一下, 获取评论数据的旧API接口url是这个样子滴:https://m.weibo.cn/api/comments/show?id={id}&page={page},此处的id表示要爬的微博的id,page表示第几页的评论数据,同时惊奇的发现,目前这个接口还是可用的。
由于是热门微博,在不断Google后,找了相关接口信息
https://m.weibo.cn/comments/hotflow?id=4734003288741850&mid=4734003288741850&max_id_type=0
接下来就是json解析的事情了。
代码语言:javascript复制# 爬取第一页的微博评论
def first_page_comment(weibo_id, url, headers):
global commentLists
url = url str(weibo_id) '&mid=' str(weibo_id) '&max_id_type=0'
print(url)
web_data = requests.get(url, headers=headers,
cookies=Cookie)
js_con = web_data.json()
max_id = js_con['data']['max_id']
print(max_id)
max = js_con['data']['max']
comments_list = js_con['data']['data']
print(comments_list)
extract_data(comments_list)
write_in('1-1')
print("已获取第1页的评论")
return max_id, max, commentLists
爬取的第一页评论如下:
关于下一页爬取,这里不展开说明
在爬取评论中一共爬取了500页评价,大约7000多条
其中,点赞非常高的评论
- 凭什么只有1000万!?每场600万,同工同酬!!为什么国家要歧视女性?
- 应把男足的工资砍一半给女足奖励!这样,奖罚分明!
- 男足一人一千万年薪?
- 男足可以因为辱华而解散吗
- 一个球队1千万多吗?请给一个人一千万,谢谢。
- 解散男足吧
- 建议男足2000月薪,赢一场加20w奖金
最后就是到了评论可视化词云图的环节:
词云图中解散男足字眼大量出现,可见对男足的失望。奖励女足,一千万远远不够。
最后时刻的一攻一守,实在是太精彩。特别有感触的一件事:在女足扳平比分之后,无论是身边一起看球的朋友,大家都觉得女足能绝杀。
中国女足在不被人看好的情况下,以让人信服的方式强势重返亚洲杯之巅,其顽强的拼搏精神只是表象。用专业人做专业的事——用对人——才是女足关键时刻能够拼下日、韩两大劲敌,夺回这个冠军的根本原因。
关于微博爬取和词云图代码,公众号后台回复 女足