- 介绍Scrapy,以及安装Scrapy
- Scrapy初级使用
- Scrapy 高级使用
- Scrapy 爬虫实战
为什么要学习Scrapy
Scrapy是一个爬虫框架,通过这个爬虫框架,我们能很快的构建出一个强大的爬虫工具! 一般大型爬虫服务都会使用Scrapy 进行爬虫,我们甚至在这个框架基础上进行一些修改,来定制自己的爬虫框架!
Scrapy学前准备
- 前期的基础,Python基础
- Python抓取数据的三种方式:Re, Xpath,Bs4
- 保存数据:数据库,本地
安装Scrapy
首先说明一下,这个网站 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 需要的一些资源都已经无效了,这也导致网上大部分安装Scrapy的方法都失效了
接下来说一下我是怎么安装的:
win环境安装,这里我是用 Python 3.6.4 32位版本 这个一定要注意对应版本,防止出错
- 安装pywin32 ,安装地址:http://sourceforge.net/projects/pywin32/ 选择File 然后查找你对应的python版本 win32环境. 这里一定要注意你的python版本.安装成功后,在Python命令行下输入 import win32com 如果报错则说明安装成功.
- 安装pyOpenSSL :pip install pyOpenSSL
- 安装lxml:使用pip install lxml
- 安装Scrapy :使用pip install Scrapy
重来来了
我是在安装第四步的时候出现了Twisted安装失败,提示需要VS C 14 ,miscrosoft build tool 打开这个网站下载vs 2017 生成工具.
https://www.visualstudio.com/zh-hans/downloads/?rr=http://landinghub.visualstudio.com/visual-cpp-build-tools
下载完成后,双击下载的文件,然后会提示勾选
然后就是漫长的下载vs build tools工具了. 我大概花了一个小时时间来安装吧,最后把这个vs 2017 build tools工具安装完毕后,提示重启,我重启完后,再打开cmd 然后输入 pip install Scrapy 运行,最后提示安装成功,终于搞定了!
【完】