scrapy_字节宝

scrapy中添加cookie踩坑记录

爬虫项目中，为了防止被封号(提供的可用账号太少)，对于能不登录就可以抓取的内容采用不带cookie的策略，只有必要的内容才带上cookie去访问。

2020-12-28

Scrapy：log日志功能

导读Scrapy提供了log功能，可以通过 logging 模块使用。logging设置通过在setting.py中进行以下设置可以被用来配置logging# 默认: True，启用loggingLOG_ENABLED = True# 默认: 'utf-8'，logging使用的编码LOG_E...

scrapy

2020-12-25

Scrapy：在下载中间件中对URL进行修改

导读在scrapy中对请求URL进行处理。问题描述：用scrapy进行爬虫项目时，已进入URL队列的URL失效，需要进行替换。解决方法Scrapy可以在下载中间件中对URL进行修改。request.url是传递到中间件的url，是只读属性，无法直接修改。...

scrapy

2020-12-25

Scrapy：重写start_requests方法

有时scrapy默认的start_requests无法满足我们的需求，例如分页爬取，那就要对它进行重写，添加更多操作。

scrapy

2020-12-25

Scrapy：命令基本用法

导读scrapy命令很多，在此整理一下。1、全局命令startprojectgenspidersettingsrunspidershellfetchviewversion2、局部命令（只在项目中使用的命令）crawlchecklisteditparsebench3、详解# 创建项目......

scrapy

2020-12-25

Scrapy：多个spider时指定pipeline

导读Scrapy存在多个爬虫的时候如何指定对应的管道呢？1、在 pipeline 里判断爬虫settings.pyITEM_PIPELINES = { "xxxx.pipelines.MyPipeline": 300,}OneSpider.pyclass OneSpider(scrapy.spid......

scrapy

2020-12-25