scrapy_字节宝

分布式爬虫原理之分布式爬虫原理

我们在前面已经实现了Scrapy微博爬虫，虽然爬虫是异步加多线程的，但是我们只能在一台主机上运行，所以爬取效率还是有限的，分布式爬虫则是将多台主机组合起来，共同完成一个爬取任务，这将大大提高爬取的效率...

2018-06-25

Scrapy框架的使用之Spider的用法

在Scrapy中，要抓取网站的链接配置、抓取逻辑、解析逻辑里其实都是在Spider中配置的。在前一节实例中，我们发现抓取逻辑也是在Spider中完成的。本节我们就来专门了解一下Spider的基本用法。1. Spider运行流程在实现Scrap...

scrapy 爬虫

2018-06-25

Scrapy框架的使用之Downloader Middleware的用法

Downloader Middleware即下载中间件，它是处于Scrapy的Request和Response之间的处理模块。我们首先来看看它的架构，如下图所示。Scheduler从队列中拿出一个

scrapy

2018-06-25

Scrapy框架的使用之Spider Middleware的用法

Spider Middleware是介入到Scrapy的Spider处理机制的钩子框架。我们首先来看看它的架构，如下图所示。当Downloader生成Response之后，Response会被发送

scrapy

2018-06-25

Scrapy框架的使用之Item Pipeline的用法

Item Pipeline是项目管道，本节我们详细了解它的用法。首先我们看看Item Pipeline在Scrapy中的架构，如下图所示。图中的最左侧即为Item Pipeline，它的调用发生...

scrapy 存储

2018-06-25

Scrapy框架的使用之Scrapy对接Selenium

Scrapy抓取页面的方式和requests库类似，都是直接模拟HTTP请求，而Scrapy也不能抓取JavaScript动态渲染的页面。在前文中抓取JavaScript渲染的页面有两种方式。一种是分析Ajax请求，找到其对应的接口抓取，Scrapy同样可以用此...

scrapy selenium Java Ajax

2018-06-25

Scrapy框架的使用之Scrapy框架介绍

Scrapy是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬...

scrapy Python 爬虫数据结构

2018-06-25

Scrapy框架的使用之Scrapy入门

接下来介绍一个简单的项目，完成一遍Scrapy抓取流程。通过这个过程，我们可以对Scrapy的基本用法和原理有大体了解。一、准备工作本节要完成的任务如下。创建一个Scrapy项目。创建一个Spider来抓取站点和处理数据。通过命...

scrapy MongoDB 数据库

2018-06-25

Scrapy框架的使用之Selector的用法

Scrapy提供了自己的数据提取方法，即Selector（选择器）。Selector是基于lxml来构建的，支持XPath选择器、CSS选择器以及正则表达式，功能全面，解析速度和准确度非常高。本节将介绍Selector的用法。1. 直接使用Selector是一个可...

scrapy xml 正则表达式 HTML

2018-06-25

Scrapy对接Docker

环境配置问题可能一直会让我们头疼，包括如下几种情况。我们在本地写好了一个Scrapy爬虫项目，想要把它放到服务器上运行，但是服务器上没有安装Python环境。其他人给了我们一个Scrapy爬虫项目，项目使用包的版本和本地环境版...

scrapy 容器镜像服务爬虫

2018-06-25

90 91 92 93 94

分布式爬虫原理之分布式爬虫原理

Scrapy框架的使用之Spider的用法

Scrapy框架的使用之Downloader Middleware的用法

Scrapy框架的使用之Spider Middleware的用法

Scrapy框架的使用之Item Pipeline的用法

Scrapy框架的使用之Scrapy对接Selenium

Scrapy框架的使用之Scrapy框架介绍

Scrapy框架的使用之Scrapy入门

Scrapy框架的使用之Selector的用法

Scrapy对接Docker

热门文章

热门手册