SCRAPY学习笔记九 增量爬取url 使用 yield 的用法

2019-11-27 15:17:10 浏览数 (1)

在scrapy中parse部分经常要实现继续爬去下面的页面需要使用到给request 增加新的url请求。要用到yield。但是非常难理解。这里做一个总结,尝试说一下这个问题。

代码片段如下,具体解析含义可以看看之前的文章。

Scrapy笔记三 自动多网页爬取-本wordpress博客所有文章

代码语言:javascript复制
#!/usr/bin/python
# -*- coding:utf-8 -*-
 
# from scrapy.contrib.spiders import  CrawlSpider,Rule
 
from scrapy.spider import Spider
from scrapy.http import Request
from scrapy.selector import Selector
from URLteam.items import UrlteamItem
 
 
class URLteamSpider(Spider):
    name = "urlteam"
    #减慢爬取速度 为1s
    download_delay = 1
    allowed_domains = ["urlteam.org"]
    start_urls = [
        "https://www.urlteam.org/2016/06/scrapy-入门项目-爬虫抓取w3c网站/"
    ]
 
    def parse(self, response):
        sel = Selector(response)
 
        #items = []
        #获得文章url和标题
        item = UrlteamItem()
 
        article_url = str(response.url)
        article_name = sel.xpath('//h1/text()').extract()
 
        item['article_name'] = [n.encode('utf-8') for n in article_name]
        item['article_url'] = article_url.encode('utf-8')
 
        <span style="color: #ff0000;">yield</span> item
 
        #获得下一篇文章的url
        urls = sel.xpath('//div[@class="nav-previous"]/a/@href').extract()
 
        for url in urls:
            print url
            <span style="color: #ff0000;">yield</span> Request(url, callback=self.parse)

在代码代码中用红色标记出来的yield

首先不用太去在意他是怎么断开前前后后的。要知道使用他的目的就是将当前抓取的url增加到待爬队列里,以前可以用:如下

代码语言:javascript复制
 result_list.append(scrapy.Request(url, callback=self.parse))

这样来增加,我初步尝试没有成功,因为找不到这个result_list,

现在用

代码语言:javascript复制
<span style="color: #ff0000;">yield</span> Request(url, callback=self.parse)

只是将要抓的url,传递给请求对象。由调度器继续发送请求。

用了yield的函数会返回一个生成器,生成器不会一次把所有值全部返回给你,而是你每调用一次next返回一个值。

而scrapy内部则就是处理这样的next。所以当你使用return 的时候反而是结束了函数,并没有增加新的url。

parse方法是个生成器,可迭代,不是一个操作流程。它里面的yield都是返回“独立”一个生成器,通过自身self.parse返回的,当最外层的parse迭代时候,里面的子生成器会被每次推送出来。整个parse就是产生一大堆相关的生成器。

当然,我也有点蒙,所以理解起来就是使用yield是并不是用他各种跳转的特效,而是让这个函数成为一个迭代器,返回可以执行next的函数,从而进行下一次的抓取。

如还是蒙,请继续找资料,如果有非常合理的解释请发送给我。

原创文章,转载请注明: 转载自URl-team

本文链接地址: SCRAPY学习笔记九 增量爬取url 使用 yield 的用法

Related posts:

  1. 爬虫首尝试—爬取百度贴吧图片
  2. Scrapy-笔记一 入门项目 爬虫抓取w3c网站
  3. Scrapy-笔记二 中文处理以及保存中文数据
  4. Scrapy笔记三 自动多网页爬取-本wordpress博客所有文章
  5. Scrapy笔记五 爬取妹子图网的图片 详细解析
  6. Scrapy笔记零 环境搭建与五大组件架构

0 人点赞