前言
这段时间大家都被病毒搞得很心烦,小编也不例外,大家注意防护好,小心一些。
希望疫情早点结束,武汉加油,中国加油!
这次小编带大家从技术的角度看一看,自从疫情爆发以来,探索一下武汉到底上了微博多少次热搜。
数据获取
小编选取了 “微博热搜神器” 作为爬取目标:
向下翻页,他会让我们用微信小程序打开一下,要不然不让我们继续查看,我们用小程序扫码打开,绑定手机号后,会赠送积分,用积分换取查看权限即可:
我们得到权限后,向下滑,发现是 ajax 加载的,我们的目标是爬取 2020 年 1 月至 2 月中旬以来武汉的历史热搜数据,发现有 20 页数据:
我们查看请求方式为 post 请求:
那在知道了我们的请求方式后,来查看一下提交的表单:
我们发现从上面的表单中有 5 个参数,其中 accessToken,t 看起来像加密参数,其他参数不知道,那我们翻一页对比一下这些参数的变化:
对比后,除了 from 参数是变化的,其他的参数都是固定的,那就好办了,我们只需要构造页数的代码即可爬取,爬取部分代码如下:
这样我们就得到了目标数据了:
热搜走势
得到数据后,我们对历史热搜次数做一个日历图:
从日历图中看出,武汉 1月 20 号以前上热搜次数较少,大概从 20 号左右以后次数突然变多了,走势图如下:
从走势图看出 1 月 20 号以后,武汉上热搜次数突然激增,这是由于疫情突然爆发了,全国的焦点都时刻关注着武汉,导致微博热搜,武汉上的次数变多。