startproject
在 project_name 文件夹下创建一个名为 project_name 的Scrapy项目。 语法:
代码语言:javascript复制scrapy startproject <project_name>
genspider
在当前项目中创建spider,可以使用提前定义好的模板来生成spider。 语法:
代码语言:javascript复制scrapy genspider [-t template] <name> <domain>
crawl
使用spider进行爬取。 语法:
代码语言:javascript复制scrapy crawl <spider>
check
运行contract检查。 语法:
代码语言:javascript复制scrapy check [-l] <spider>
list
列出当前项目中所有可用的spider,每行输出一个spider。 语法:
代码语言:javascript复制scrapy list
edit
使用 EDITOR 中设定的编辑器编辑给定的spider。 语法:
代码语言:javascript复制scrapy edit <spider>
fetch
使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。 语法:
代码语言:javascript复制scrapy fetch <url>
view
在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。 语法:
代码语言:javascript复制scrapy view <url>
shell
以给定的URL(如果给出)或者空(没有给出URL)启动Scrapy shell。 语法:
代码语言:javascript复制scrapy shell [url]
parse
获取给定的URL并使用相应的spider分析处理。 语法:
代码语言:javascript复制scrapy parse <url> [options]
支持的选项:
- --spider=SPIDER: 跳过自动检测spider并强制使用特定的spider
- --a NAME=VALUE: 设置spider的参数(可能被重复)
- --callback or -c: spider中用于解析返回(response)的回调函数
- --pipelines: 在pipeline中处理item
- --rules or -r: 使用 CrawlSpider 规则来发现用来解析返回(response)的回调函数
- --noitems: 不显示爬取到的item
- --nolinks: 不显示提取到的链接
- --nocolour: 避免使用pygments对输出着色
- --depth or -d: 指定跟进链接请求的层次数(默认: 1)
- --verbose or -v: 显示每个请求的详细信息
settings
在项目中运行时,该命令将会输出项目的设定值,否则输出Scrapy默认设定。 语法:
代码语言:javascript复制scrapy settings [options]
runspider
在未创建项目的情况下,运行一个编写在Python文件中的spider。 语法:
代码语言:javascript复制scrapy runspider <spider_file.py>
version
输出Scrapy版本。 语法:
代码语言:javascript复制scrapy version [-v]
deploy
将项目部署到Scrapyd服务。 语法:
代码语言:javascript复制scrapy deploy [ <target:project> | -l <target> | -L ]
bench
运行benchmark测试。 语法:
代码语言:javascript复制scrapy bench