今天逛github看到了一个很好的项目,给大家分享一下。
项目地址:https://github.com/54xingzhe/weixin_crawler
What is weixin_crawler?
weixin_crawler是一款使用Scrapy、Flask、Echarts、Elasticsearch等实现的微信公众号文章爬虫,自带分析报告和全文检索功能,几百万的文档都能瞬间搜索。weixin_crawler设计的初衷是尽可能多、尽可能快地爬取微信公众的历史发文
如果你想先看看这个项目是否有趣,这段不足3分钟的介绍视频一定是你需要的:
https://www.youtube.com/watch?v=CbfLRCV7oeU&t=8s
主要特点
- 使用Python3编写
- 爬虫框架为Scrapy并且实际用到了Scrapy的诸多特性,是深入学习Scrapy的不错开源项目
- 利用Flask、Flask-socketio、Vue实现了高可用性的UI界面。功能强大实用,是新媒体运营等岗位不错的数据助手
- 得益于Scrapy、MongoDB、Elasticsearch的使用,数据爬取、存储、索引均简单高效
- 支持微信公众号的全部历史发文爬取
- 支持微信公众号文章的阅读量、点赞量、赞赏量、评论量等数据的爬取
- 自带面向单个公众号的数据分析报告
- 利用Elasticsearch实现了全文检索,支持多种搜索和模式和排序模式,针对搜索结果提供了趋势分析图表
- 支持对公众号进行分组,可利用分组数据限定搜索范围
- 原创手机自动化操作方法,可实现爬虫无人监管
- 反爬措施简单粗暴
使用到的主要工具
语言 | Python3.6 | |
---|---|---|
前端 | web框架 | Flask / Flask-socketio / gevent |
js/css库 | Vue / Jquery / W3css / Echarts / Front-awsome | |
后端 | 爬虫 | Scrapy |
存储 | Mongodb / Redis | |
索引 | Elasticsearch |
功能展示
UI主界面
添加公众号爬取任务和已经爬取的公众号列表
爬虫界面
设置界面
公众号历史文章列表
报告
搜索