一个小又全的爬虫项目包含哪些部分

2022-10-05 08:08:43 浏览数 (1)

一个小又全的爬虫项目

  • 任务生成者 生成爬虫任务的组件, 最大的作用就是建立生产消费者模型, 将生产者和消费者剥离, 可以达到程序暂停重启的功能.
  • 配置文件 当前爬虫项目的基础配置信息, 目的就是统一化配置, 避免重复修改.
  • 主函数/调度器 以逻辑控制流协同各个组件, 完成爬取工作, 具有一定的调度功能
  • 下载器 用来和目标服务器进行交互, 获取数据的组件
  • 解析器 用来解析非结构化的页面内容, 获取想要的数据.
  • 存储器 用来持久化解析后的数据
    • 数据库
    • 存为本地文件, 比较推荐的格式为json, 结构严谨的可以保存为csv

github地址

0 人点赞