这是 月小水长 的第 133 篇原创干货
抓取一个用户发布的微博可能会有这样一个需求,只需要特定时间段内的这个用户发布的微博,或者只需要包含指定关键词的微博,又或者是指定时间段内同时包含指定关键词的微博。这可能很简单,直接把全部的微博抓下来再本地处理过滤不就可以吗。
但是,一个微博用户可能发布了十多万条微博,但是我们需要的目标微博只要十多条,在不考虑全部抓下来的难度的前提下,10 之于 100000,得做多少无用功。
有痛点就要解决,于是乎,微博超级用户自助抓取网站上线了。
它可以按照关键词、时间线筛选微博,并抓取保存。
抓取保存的 csv 包含十余字段,主要有微博 id、微博链接、图片链接、微博内容、发布工具、转评赞数量等字段。抓取结束后会出现下载 csv 的按钮。
网站全量开启 https 安全访问,地址为:
代码语言:javascript复制https://weibo-super-user-spider.buyixiao.xyz/
网站对所有人开放,但执行抓取需要密钥,密钥获取地址
代码语言:javascript复制https://afdian.net/p/4c1ad92aeaf311ec971752540025c377
为了服务器和网站的持续稳健运行,密钥设置为付费获取,本爬虫的密钥和 中断可继续,10w ,无 cookie 微博评论抓取网站上线 中的密钥是一样的,上次获取过的的同学可以直接获取使用,一旦泄露随时可能更新。