增量微博备份工具:指定时段,单博主可备份十万条微博文本、高清图片和 HD 视频

2023-04-27 18:21:20 浏览数 (1)

如果有备份微博的需求,可以参考前面发布的 开源 | 微博备份和相册下载 ,但恰好我又是个运营产品小白,而且不想搭建本地 Python 环境,我特别想要一款云端爬虫,PC 和手机都能备份,网页点点点就能完事,而且可以增量指定用户爬取大量的微博。

比如有个博主有 10w 条博文,如果手动备份,估计备份到后年去,调研发现现有微博备份工具在备份数据量、备份速度和数据丰富度上很难同时让人满意,于是就就开发了这个工具,它具有以下功能。

1、可以备份自己或者他人的微博数据。可以是任意公开微博和粉丝可见的微博(需要先关注目标博主)。微博保存的 csv 文件字段多达十余个:用户主页、用户认证类型、微博链接、微博正文文本、图片链接、视频链接、转评赞数

2、增量更新,本月备份后,下月底备份只会备份下月更新的微博。但是下载结果是增量后全部的微博。

3、断点续传,由于某些原因备份中断后,下次备份同一个博主时,会从出错的地方继续备份

4、指定年份,默认选择的是最近两年,可多选,每次指定年份开始抓取后是累计已经抓取过的年份的所有微博

5、如果不是原创微博,会自动带上转发理由转发原文

6、可选下载高清原图和HD视频(比不下载耗时较多)。

如果下载所有的图片或者视频,最多的博主可能有多达几十 G 的磁盘占用,为了防止网站负荷过载,作出一些限制:

1、单个博主单次抓取限制 10 张图片、2 个视频。

2、每个视频限制最大为 10 M,单张照片无限制。

当然,所有的博文文本是没有任何限制的,只对多媒体资源下载限制,但是仍然可以在下载微博文本 csv 后,根据 csv 文件里面的图片或者视频链接在本地进行下载。

图片和视频下载的 Python 代码都贴在了网站上。

网站备份需要输入微博用户的数字 uid,备份结束后网站左下方会显示下载按钮,下载结果是一个 zip 文件,里面包括 weibo、image、video 3 个子文件夹(后面 2 个勾选了同时下载才有)。分别是博文 csv 文件夹(包括分月的微博 CSV 和总的微博 CSV)、图片和视频文件夹,zip 文件名就是 {uid}.zip。

迭代过 M 个版本,且熬过 N 个黑夜,才终于没 bug,上线了,更多详情操作请移步网站,地址为:

代码语言:javascript复制
https://weibo-crawl-visual.buyixiao.xyz/weibo-user-backup

0 人点赞