改变模板:scapy genspider -t crwal 名字(hua2) 不带http的根网址:
执行:scrapy genspider -t crawl read www.dushu.com
配置说明见 https://github.com/knockrentals/scrapy-elasticsearch
爬虫就是Scrapy用来从网站抓取数据的类,它们都继承于scrapy.Spider类。
当你运行下面命令时,Scrapy框架会启动爬虫引擎,根据myspider.py中的逻辑进行抓取网页,然后把结果存到result.json中。