小白学 Scrapy 爬虫系列之一：准备实验机器

爬虫如今是一个非常热门的技术领域，不仅因为它是获取大数据的一种有效方式，还在于它入门还是比较简单、快速，小白学完比较容易有成就感，而且可以「学以致用」。

本系列文章中，笔者将带领大家从零开始学习爬虫编写。在跟随笔者一起实操之前，要求大家有一定的 Python 基础。之前没接触过的同学也不用担心，Python 号称是世界上最容易学的语言，如果之前没有了解，可以先看看Think Python 2这本入门书。这是 Python 社区爱好者共同翻译的一本开源教材，对于零基础的同学来说很有价值。

第一天的任务

本系列教程一共八篇，将持续在腾讯云技术社区更新。前七篇介绍从机器配置到爬虫运行的全过程，最后一篇分享动态页面爬取、反爬虫等进阶建议。

第一天的任务，也就是本文的主题，即 完成爬虫项目的机器配置。

机器及操作系统

在学习爬虫的过程中，可能会碰到由于机器原因导致的软件安装错误，尤其是 Windows 系统。因此，本教程建议大家使用统一的机器机型和操作系统。

确保这个要求的绝佳方式，就是使用腾讯云等云计算平台提供的云服务器。这些都是标准化的机器，每台机器的初始配置都相同，而且可以选择使用一模一样的操作系统，如我们计划使用的 Ubuntu 14.04。

另外，由于直接使用云服务器，在爬虫开发完成之后，就可以直接投入实际使用，做到 7x24 小时持续运行。

因此，笔者建议大家使用腾讯云提供的云服务器。如果你是新注册用户的话，还可以申请免费30天使用。如果已经是注册用户，建议选择1核CPU1GB内存的实验机器，尽量降低实验成本。这也是本系列教程所使用的机器。

购买服务器之后，建议先按下文进行初始安全配置：

如何正确配置 Ubuntu 14.04 服务器？

基础软件

SSH 登录实验服务器之后，我们需要安装以下软件依赖，才能继续后面的任务：

Python 3.x
git
pip
virtualenv

安装过程也非常直接明了：

代码语言：txt复制

sduo apt-get install python3 git python3-pip

然后再使用 pip 命令安装 virtualenv：

代码语言：txt复制

pip3 install virutalenv

在 Ubuntu 系统下，这些操作完成的都特别快，而且基本不会出错。Windows 系统下的过程会稍微复杂一些。

后续计划

完成上面的配置之后，爬虫项目需要的实验机器就准备好了。明天，我们将介绍具体实验环境准备工作，主要包括安装PostgreSQL 数据库和 Scrapy 爬虫库等。

本系列教程的完整内容预计包括：

E01：机器配置
E02：环境配置
E03：创建 Scrapy 项目
E04：编写爬虫代码
E05：接入 SQLAlchemy
E06：编写数据处理管道
E07：运行爬虫的几种方式
E08：延伸阅读，如何避免反爬等

scrapy

0 人点赞