爬取历史热搜,武汉到底上了几次热搜?

2020-02-24 18:05:57 浏览数 (1)

前言

这段时间大家都被病毒搞得很心烦,小编也不例外,大家注意防护好,小心一些。

希望疫情早点结束,武汉加油,中国加油!

这次小编带大家从技术的角度看一看,自从疫情爆发以来,探索一下武汉到底上了微博多少次热搜。

数据获取

小编选取了 “微博热搜神器” 作为爬取目标:

向下翻页,他会让我们用微信小程序打开一下,要不然不让我们继续查看,我们用小程序扫码打开,绑定手机号后,会赠送积分,用积分换取查看权限即可:

我们得到权限后,向下滑,发现是 ajax 加载的,我们的目标是爬取 2020 年 1 月至 2 月中旬以来武汉的历史热搜数据,发现有 20 页数据:

我们查看请求方式为 post 请求:

那在知道了我们的请求方式后,来查看一下提交的表单:

我们发现从上面的表单中有 5 个参数,其中 accessToken,t 看起来像加密参数,其他参数不知道,那我们翻一页对比一下这些参数的变化:

对比后,除了 from 参数是变化的,其他的参数都是固定的,那就好办了,我们只需要构造页数的代码即可爬取,爬取部分代码如下:

这样我们就得到了目标数据了:

热搜走势

得到数据后,我们对历史热搜次数做一个日历图:

从日历图中看出,武汉 1月 20 号以前上热搜次数较少,大概从 20 号左右以后次数突然变多了,走势图如下:

从走势图看出 1 月 20 号以后,武汉上热搜次数突然激增,这是由于疫情突然爆发了,全国的焦点都时刻关注着武汉,导致微博热搜,武汉上的次数变多。

0 人点赞