在scrapy中parse部分经常要实现继续爬去下面的页面需要使用到给request 增加新的url请求。要用到yield。但是非常难理解。这里做一个总结,尝试说一下这个问题。
代码片段如下,具体解析含义可以看看之前的文章。
代码语言:javascript复制Scrapy笔记三 自动多网页爬取-本wordpress博客所有文章
#!/usr/bin/python
# -*- coding:utf-8 -*-
# from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.spider import Spider
from scrapy.http import Request
from scrapy.selector import Selector
from URLteam.items import UrlteamItem
class URLteamSpider(Spider):
name = "urlteam"
#减慢爬取速度 为1s
download_delay = 1
allowed_domains = ["urlteam.org"]
start_urls = [
"https://www.urlteam.org/2016/06/scrapy-入门项目-爬虫抓取w3c网站/"
]
def parse(self, response):
sel = Selector(response)
#items = []
#获得文章url和标题
item = UrlteamItem()
article_url = str(response.url)
article_name = sel.xpath('//h1/text()').extract()
item['article_name'] = [n.encode('utf-8') for n in article_name]
item['article_url'] = article_url.encode('utf-8')
<span style="color: #ff0000;">yield</span> item
#获得下一篇文章的url
urls = sel.xpath('//div[@class="nav-previous"]/a/@href').extract()
for url in urls:
print url
<span style="color: #ff0000;">yield</span> Request(url, callback=self.parse)
在代码代码中用红色标记出来的yield
首先不用太去在意他是怎么断开前前后后的。要知道使用他的目的就是将当前抓取的url增加到待爬队列里,以前可以用:如下
代码语言:javascript复制 result_list.append(scrapy.Request(url, callback=self.parse))
这样来增加,我初步尝试没有成功,因为找不到这个result_list,
现在用
代码语言:javascript复制<span style="color: #ff0000;">yield</span> Request(url, callback=self.parse)
只是将要抓的url,传递给请求对象。由调度器继续发送请求。
用了yield的函数会返回一个生成器,生成器不会一次把所有值全部返回给你,而是你每调用一次next返回一个值。
而scrapy内部则就是处理这样的next。所以当你使用return 的时候反而是结束了函数,并没有增加新的url。
parse方法是个生成器,可迭代,不是一个操作流程。它里面的yield都是返回“独立”一个生成器,通过自身self.parse返回的,当最外层的parse迭代时候,里面的子生成器会被每次推送出来。整个parse就是产生一大堆相关的生成器。
当然,我也有点蒙,所以理解起来就是使用yield是并不是用他各种跳转的特效,而是让这个函数成为一个迭代器,返回可以执行next的函数,从而进行下一次的抓取。
如还是蒙,请继续找资料,如果有非常合理的解释请发送给我。
原创文章,转载请注明: 转载自URl-team
本文链接地址: SCRAPY学习笔记九 增量爬取url 使用 yield 的用法
Related posts:
- 爬虫首尝试—爬取百度贴吧图片
- Scrapy-笔记一 入门项目 爬虫抓取w3c网站
- Scrapy-笔记二 中文处理以及保存中文数据
- Scrapy笔记三 自动多网页爬取-本wordpress博客所有文章
- Scrapy笔记五 爬取妹子图网的图片 详细解析
- Scrapy笔记零 环境搭建与五大组件架构