文章目录
- 简介与安装
- 安装
- 使用
- 初始化项目
- 初始化数据库
- 运行gerapy服务
- 访问gerapy界面
- gerapy管理界面的使用
- 部署主机
- Gerapy 与 scrapyd 有什么关联吗?
- 部署项目
github:https://github.com/Gerapy/Gerapy
简介与安装
Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发。
特点:
- 更方便地控制爬虫运行
- 更直观地查看爬虫状态
- 更实时地查看爬取结果
- 更简单地实现项目部署
- 更统一地实现主机管理
- 更轻松地编写爬虫代码(几乎没用,感觉比较鸡肋)
创建新文件夹:WORK_GERAPY ——> 在此路径下运行cmd命令行,
安装
代码语言:javascript复制pip install gerapy
#gerapy 判断是否安装成功
C:UsersWYXCz>gerapy
Usage: gerapy.exe [-v] [-h] ...
Gerapy 0.9.6 - Distributed Crawler Management Framework
Optional arguments:
-v, --version Get version of Gerapy
-h, --help Show this help message and exit
Available commands:
init Init workspace, default to gerapy
initadmin Create default super user admin
runserver Start Gerapy server
migrate Migrate database
createsuperuser Create a custom superuser
makemigrations Generate migrations for database
generate Generate Scrapy code for configurable project
parse Parse project for debugging
loaddata Load data from configs
dumpdata Dump data to configs
使用
初始化项目
输入:gerapy init 执行完这个命令后会自动创建一个gerapy的文件夹
初始化数据库
命令行输入: cd gerapy 在输入:gerapy migrate 执行完会在自动创建一个 db.sqlite3 文件 和 project文件夹 这条命令是创建数据表 创建的数据库是sqlite3
运行gerapy服务
命令输入:gerapy runserver
这要命令必须新生成的gerapy文件夹只用,否则以前创建的项目都看不奥到
直接键入命令就可以启动项目 默认地址为:127.0.0.1:8000
如果需要指定端口及允许其他人访问则在命令后 加入 0.0.0.0:port
示例:gerapy runserver 0.0.0.0:8200
(注意:需要在cmd启动 scrapyd)
到这里gerapy已经启动了
访问gerapy界面
打开浏览器:访问管理平台界面 http://localhost:8000
如果不存在登录账号密码,则需在命令行中创建
gerapy createsuperuser
# 后续根据提示输入账号、邮箱、密码即可
gerapy管理界面的使用
部署主机
就是配置我们scrapyd 远程服务.(指定远程服务器的ip和端口等等)
需要添加 IP、端口,以及名称,点击创建即可完成添加,点击返回即可看到当前添加的 Scrapyd 服务列表
如果想执行爬虫,就点击调度.然后运行. 前提是: 我们配置的scrapyd中,已经发布了 爬虫.
Gerapy 与 scrapyd 有什么关联吗?
我们仅仅使用scrapyd是可以调用scrapy进行爬虫. 只是 需要使用命令行开启爬虫
代码语言:javascript复制curl http://127.0.0.1:6800/schedule.json -d project=工程名 -d spider=爬虫名
使用Greapy就是为了将使用命令行开启爬虫变成 “小手一点”. 我们在gerapy中配置了scrapyd后,不需要使用命令行,可以通过图形化界面直接开启爬虫.
部署项目
我们就可以把我们写好的爬虫文件放在生成的文件夹gerapy下projects内,然后刷新网页就可以发现项目就在里边了
然后我们点击部署按钮就可以进行打包和部署了,描述是自定义的,这个只会在gerapy上显示,然后会提示我们打包成功,同时左侧会显示打包的结果和打包的名称。
打包成功后我们就可以在进行部署了,如果有多个主机的话,我们就需要选择部署的主机,点击后边部署按钮,也可以同时批量选择主机进行部署。
然后我们就可以在主机的项目页面点击主机,看到爬虫的运行状态,并且不用在cmd中输入命令,通过点击就可以让爬虫
运行,停止,并且查看运行状态。
最后,gerapy也支持在其网页上自建爬虫项目,具体这里就不介绍了。