爆肝代码两个月，我发现了北京房价的“小秘密”

互联网时代，如何更好地利用信息是一个非常重要的事情。信息的利用可以拆解为下面这些行为：获取、加工、存储、搜索、使用、泛化。今天我将从结构化信息的获取、存储、搜索、使用这四个方面来讲一讲，如何通过构建个人结构化数据中心来更好地利用信息。

图1: 结构化数据中心-概念

先介绍一下个人结构化数据中心的整体概念。如图1：

1.首先互联网中存在着大量的数据，这些数据以网站的形式存在着，我们可以通过浏览网站获取信息，但是这样的行为效率很低。所以我们需要将网站的非结构化数据，转化为结构化数据。此时爬虫作为一个工具能够帮助我们转化数据，这个行为被我们定义为信息的获取。
2.获取了大量的结构化数据之后，我们需要有个东西将这些东西存储起来，所以此时需一个数据存储中心来将这些数据持久化，以备后续使用，这个行为被我们定义为信息的存储。
3.当本地存储了大量的结构化数据之后，由数据存储中心提供的API服务，我们可以通过数据查询终端来查询某些单个信息，这个行为被我们定义为信息的搜索。
4.同时我们也可以在数据分析/可视化平台上，对数据进行分析，得出数据冰山下隐藏的信息，这个行为被我们定义为信息的使用。

此时一个对信息进行获取、存储、搜索、使用的系统就诞生了，我称其为个人结构化数据中心。

图2：结构化数据中心-技术

在来看一下系统的整体结构，如图2：

以上使用到的各个系统都是开源，接下来我将一一介绍这些系统的部署，最终构造出一个完整的：个人结构化数据中心

部署指导视频

首先需要点击这里，将项目 clone 到本地，例如：～/struct-data-center-init
修改文件 ~/struct-data-center-init/ParseServer/docker-compose.yml 文件：
- 如果是本地部署：那么只需要将里面 192.168.31.134 改成本机ip。
- 如果是云服务器部署：那么需要将里面 192.168.31.134 和 localhost 都改成本机ip。
可以点击这里，将所有镜像下载到项目目录里(注意别把镜像文件的名字改了)，然后执行 sudo sh import.sh 导入镜像。
进入项目，执行 sudo sh run.sh 等待所有容器部署完毕。注意执行这一步的时候禁止翻墙。

访问 Pyspider 页面
- 我们可以看见内置了三个任务：
  - beike_xinshuju_paqu: 用于初始化爬取贝壳上面的房价数据，每天更新新的房价数据。
  - beike_jiancha_kongshuju: 用于每天检查更新的房价数据是否有问题。
  - beike_chengjiao: 用于每隔一天，检查已有的房产是否下架或者成交。
- 我们将可以点击 Run 按钮，执行爬虫。爬下来的数据会被存储到 ParseServer 里面。
- 点击这里，可以了解到 Pyspider 的一些常用知识。
访问 ParseServer-Dashboard 页面，输入帐号密码后
- 左边有个 HouseInfo 数据表，数据表中已经提前存储了某一天北京的房价数据
- 爬虫新爬取的数据都会被展示在这里面
访问 MetaBase 页面
- 主页点开侧边栏，点击浏览数据，可以看见我们房价数据库：HouseInfo
- 点击我们的数据库，会发现里面有一个名为 HouseInfo 的表，我们将鼠标放在这个表上，表的右边会出现一个闪电的标识。
- 点击闪电标识，我们就能看见这个表的一些简单的统计数据，例如目前北京有多少房屋在售等等。点击这里，可以了解到 MetaBase 的一些常用知识。
- 至此我们的结构化数据中心就形成了闭环，我们可以使用 MetaBase 进行房价数据的分析了