可按关键词和时间段搜索,微博用户爬虫上新

2022-09-03 09:37:24 浏览数 (1)

这是 月小水长 的第 133 篇原创干货

抓取一个用户发布的微博可能会有这样一个需求,只需要特定时间段内的这个用户发布的微博,或者只需要包含指定关键词的微博,又或者是指定时间段内同时包含指定关键词的微博。这可能很简单,直接把全部的微博抓下来再本地处理过滤不就可以吗。

但是,一个微博用户可能发布了十多万条微博,但是我们需要的目标微博只要十多条,在不考虑全部抓下来的难度的前提下,10 之于 100000,得做多少无用功。

有痛点就要解决,于是乎,微博超级用户自助抓取网站上线了。

可以按照关键词、时间线筛选微博,并抓取保存

抓取保存的 csv 包含十余字段,主要有微博 id、微博链接、图片链接、微博内容、发布工具、转评赞数量等字段。抓取结束后会出现下载 csv 的按钮。

网站全量开启 https 安全访问,地址为:

代码语言:javascript复制
https://weibo-super-user-spider.buyixiao.xyz/

网站对所有人开放,但执行抓取需要密钥,密钥获取地址

代码语言:javascript复制
https://afdian.net/p/4c1ad92aeaf311ec971752540025c377

为了服务器和网站的持续稳健运行,密钥设置为付费获取,本爬虫的密钥和 中断可继续,10w ,无 cookie 微博评论抓取网站上线 中的密钥是一样的,上次获取过的的同学可以直接获取使用,一旦泄露随时可能更新。

0 人点赞