scrapy爬虫笔记(1)：scrapy基本使用

之前在写爬虫时，都是自己写整个爬取过程，例如向目标网站发起请求、解析网站、提取数据、下载数据等，需要自己定义这些实现方法等

这个周末把之前买的一个scrapy爬虫课程翻了出来(拉钩教育《52讲轻松搞定网络爬虫》，有兴趣的可以去看看)，初步学习了一下scrapy的使用方法，刚好把以前写好的一个爬虫用scrapy改造一下，加深学习印象，也好做个对比

本次爬取的网站仍然是图片素材网站：

https://imgbin.com/free-png/water

之前的爬虫过程如下：

https://www.cnblogs.com/hanmk/p/12747093.html

scrapy官方文档：

https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.html

接下来使用scrapy来爬取该网站的图片素材，本节的目标是：提取图片的下载url，并且只提取第一页，暂时不做后续处理

1. 网站分析

如上，一个图片占用一个div标签，定位到div下的img标签，然后提取 data-original属性的内容即可

因为这次只提取这一页的图片，所以可以先不考虑翻页导致url的变化(后续会逐步完善)

2. 新建一个scrapy项目

打开cmd命令行窗口或者打开pycharm并切换到Terminal终端，任意切换到一个目录，然后输入如下命令

代码语言：javascript复制

scrapy startproject imgbin

3. 新建一个spider

进入刚刚创建好的项目目录，执行如下命令

代码语言：javascript复制

scrapy genspider images imgbin.com

完成上述步骤后，会得到如下工程文件目录

4. 编辑items.py

代码语言：javascript复制

import scrapy


class ImgbinItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    img_src = scrapy.Field()

因为我只需要提取图片下载链接，所以这里也只定义了一个字段用来存储提取到的图片url

5. 编写spider文件，解析response

代码语言：javascript复制

import scrapy
from scrapy import Request
from imgbin.items import ImgbinItem

class ImagesSpider(scrapy.Spider):
    name = 'images'
    allowed_domains = ['imgbin.com']
    start_urls = ['http://imgbin.com/']


    def start_requests(self):
        base_url = "https://imgbin.com/free-png/naruto"
        yield Request(url=base_url, callback=self.parse)

    def parse(self, response):
        images = response.xpath("//img[@class='photothumb lazy']")

        for image in images:
            item = ImgbinItem()
            item["img_src"] = image.xpath("./@data-original").extract_first()
            yield item

（1）首先导入了 Request 模块以及定义好的 ImgbinItem

（2） ImagesSpider类下有3个属性