一个小又全的爬虫项目
- 任务生成者 生成爬虫任务的组件, 最大的作用就是建立生产消费者模型, 将生产者和消费者剥离, 可以达到程序暂停重启的功能.
- 配置文件 当前爬虫项目的基础配置信息, 目的就是统一化配置, 避免重复修改.
- 主函数/调度器 以逻辑控制流协同各个组件, 完成爬取工作, 具有一定的调度功能
- 下载器 用来和目标服务器进行交互, 获取数据的组件
- 解析器 用来解析非结构化的页面内容, 获取想要的数据.
- 存储器
用来持久化解析后的数据
- 数据库
- 存为本地文件, 比较推荐的格式为json, 结构严谨的可以保存为csv
github地址