爱数科案例 | 城市房价数据可视化分析

2022-03-30 17:16:31 浏览数 (1)

本案例采用波士顿房价数据集,其中包含14个字段506条样本数量,包括波士顿地区人口水平、房屋周边环境以及房价等信息。该数据收集于 1978 年,506 条样本中的每一个都代表了马萨诸塞州波士顿各个郊区房屋的 14 个特征的汇总数据。

通过对该数据进行可视化分析,目的是探究波士顿整体房价的影响因素以及一些房屋房价异常高的原因,并尽量找出其中的优质房源

1. 读数据集

首先,读取数据集。

读取数据集之后,通过了解各个字段的具体含义,详细含义可见此处。可以初步将房价以外的13个字段大致分为四类用于探索其与房价之间的关系,四类分别为:房屋房间数(包含字段RM)、居民质量(包含字段LSTAT,B,CRIM以及PTRATIO)、周边交通情况(包含字段DIS,RAD)、以及环境问题(包含字段CHAS)。接下来的可视化分析将基于以上四大类开展,逐一分析其分布情况与该类字段与波士顿地区房价的关系。

2. 数据字段基本统计信息

查看数据集中各个字段的样本数、均值、标准差、最小值、四分位数等基本信息。

根据数据字段的基本统计信息,可以得出此数据集中所有的字段包含506个样本数,因此数据集不存在缺失值的情况。通过结合均值、标准差、最小值和下四分位数可以发现字段AGE最小值在2.9,但是均值达到68.6左右,因此可以后续用箱线图探究此字段中数值的合理性。同样,通过查看数据基本信息可以初步判断出其他字段的数据较为合理。

判断完字段的合理性之后对数据大致的波动性以及离散程度进行预估,其中字段CRIM,ZN,RAD,DIS的标准差高于或接近均值,可以看出以上字段的波动性较大,初步判断波士顿地区存在房源质量差距较大的现象,预测会有一些较为优质房源以及一些质量非常低的房源。因此,在后续进行可视化分析的时候着重定位优质房源。

3. 自用房屋比例的箱线图

由于数据字段基本信息统计中字段AGE的数值相对较为异常,因此可以通过箱线图进一步验证该字段数据的合理性。

从此箱线图中可以看出字段AGE的最大值、最小值以及四分位数。由于图中并没有显示异常点,因此可以确认字段AGE所录入的数据均合理。

4. 平均房价直方图

读取数据集、查看各个字段的基本信息以及验证各个字段的数据合理性之后将具体分析该案例。由于此案例针对波士顿的房价,因此可以将重心定位在探究波士顿房价的影响因素,重点分析字段target。

首先,通过绘制平均房价的直方图探究波士顿地区的房价的基本情况。

从该直方图中可以得知在波士顿地区18500美元的房价最多,集中分布在14000美元到23000美元,存在少量高房价房源。接下来可以通过绘制箱线图具体查看较高房价房源的情况。

5. 平均房价的箱线图

通过直方图分析完波士顿地区平均房价之后,接着通过箱线图查看字段target的最大值、最小值、四分位数以及异常点,目的是初步了解波士顿地区房价的具体分布情况并查看异常点的值。

从图中可以得知,波士顿地区平均房价的中位数在21200美元,最小值5600美元,最大值28700美元,存在多个异常点。由于高于箱线图中最大值的异常点存在多个,后续应将该点的信息统一筛选出来,对于平均房价异常高的点进行进一步分析,目的是分析平均房价异常高的房屋的影响因素。

6. 筛选平均房价为异常值的数据

通过箱线图查看异常点之后,发现平均房价异常高的数据较多,所以接下来需要筛选出平均房价较高的异常值的数据,并进行探索性分析。

从表中可以看到平均房价异常高的房屋的每个字段数据,根据以上表格中的数据,接下来要绘制图表进行更加直观的分析。

7. 平均房间数与房价的散点图

想要探究影响这些波士顿房价异常高的原因,先进行假设房价异常高的直接影响因素是房间数较多,占地面积较大。为了证明这一假设的准确性,将绘制数据集中字段RM与target的散点图探究平均房间数与房价之间的相关性。

从图中可以看出,随着房间数的增加,房价通常情况下也在不断的增加,因此符合面积和房价成正比的常识。另外,波士顿大多数房屋的房间数设置在6间,其平均房价也集中分布在20000美元左右。但是不乏有极个别房屋虽然房间数量较少,平均房价依旧保持在50000美元的高价。

8. 异常房价平均房间数的箱线图

由于上一步平均房间数与房价的散点图证明了房间数与房价成正比,因此在探究影响波士顿高房价的因素中,平均房间数作为重要因素之一。接下来,通过绘制箱线图查看波士顿异常高房价房屋的平均房间数的分布情况。

从图中可以得知,波士顿地区异常高房价房屋的房间数量在7-8间左右,但出现一个高房价房屋的房间数在5左右。因此可以进一步筛选出此房间的信息,进行查看。

9. 筛选房间数低的高价房信息

通过以上结合散点图和箱线图的分析得知,存在一个高房价但是房间数量较少的房屋,因此想要查看导致其高房价的其他因素。

通过对比该房屋与波士顿整体房屋的各个字段的数据,得知该房屋的字段AGE,RAD,PTRATIO均相对高于平均水平,字段DIS和LSTAT均低于平均水平,其中字段CHAS为0。通过比较以上字段的数据特点,综合得出该房屋周边环境良好多为住宅区处于非河流边界房屋,城镇居民素质高教育水平较高犯罪率较低,其地理位置交通便利,距离市中心较近

10. 距市中心距离与房价的散点图

单独分析完字段target之后,将更进一步分析字段target与其他各个字段的相关性,目的是为了全方位探究影响波士顿房价的因素。

根据常识,市中心的房屋均价会普遍更高一些,因此想要通过散点图查看距市中心的距离与房价的相关性。

从图中可以看出,该数据集的房屋集中分布在距离市中心较为近的地区,距离波士顿五个中心区域的加权距离在2左右。但是市中心的房价分布较为广泛,大部分房源价格集中在10000美元到20000美元,也有极少部分的房屋距离市中心较近且价格较高。距离市中心较远的房屋价格集中分布在20000美元到30000美元。

综合分析以上散点图可以得知,该数据集中波士顿大部分的房屋都位于市中心附近,可以看出市中心附近房子的均价分布较广,可以提供给居民的选择余地更多;反而波士顿市中心的房源价格会出现大量低房价房源,越偏离市中心的房屋整体价格会高,但是价格跨度区间不如市中心的房源价格跨度大

11. 距离辐射公路与房价的散点图

已知在波士顿地区,距离市中心的远近程度在很大程度上并不影响房屋的均价之后,将探究距离辐射公路是否影响房屋的均价。因此,通过绘制距离辐射公路与房价的散点图进行查看。

从图中可以看出,还数据集的房屋距离辐射公路集中分布在10以下,多数在5左右。距离辐射公路为5的房屋均价分布较为广泛,距离辐射公路接近25的房屋均价分布在30000美元以下。因此,并不能推断出距离辐射公路与房价之间就存在较强的相关性

12. 阶层较低者比例与房价的散点图

已知在波士顿地区,房屋的地理位置并不会很大程度上影响房屋的均价之后,将继续探究其他影响因素。

根据常识,地区的房子均价将受到附近城镇人口的人均质量水平的影响,因此将进一步绘制人口地位低下者比例与房价的散点图来印证该假设。

通过上面散点图可以清晰地看出随着人口地位低下者的比例逐渐下降,该房屋的平均价格也会随之下降。

因此可以得出,波士顿地区的房屋均价会受到人口地位水平的影响,一般情况下,人口地位低下者所在的周边房价较为低,而高房价地区的人口地位低下者比例非常少。一些房价异常高的房屋人口地位低下者的比例集中在10以内。

13. 黑人比例与房价的散点图

为了进一步探究该房屋附近居民质量对于房价的影响程度,将绘制黑人比例与房价的散点图来预测在波士顿地区,人种问题是否会影响房屋的均价。

从图中可以得知,黑人比例与房屋的价格并没有任何的相关性,其中黑人比例高的地方的房屋价格分布极为广泛,一些房价异常高的房屋也集中在黑人比例较为高的区域,然而黑人比例较为低的地方的房价反而都集中在10000美元到30000美元。因此,并不能得出房屋附近黑人占比会对整体房价产生较大影响

14. 城镇犯罪率和师生比例与房价的3D散点图

为了更深一步探究居民质量与房价之间的关系,将绘制3D散点图更清晰地查看房价较高地区是否多为教育程度较高的人群。该数据集中有关教育程度的字段有CRIM与PTRATIO,因此将绘制3D散点图进行统一查看波士顿地区居民质量是否和房屋定价存在相关性。

通过以上3D散点图可以看出均价较高的房屋城镇犯罪率较低并且师生比例较高,因此可以验证在波士顿地区,居民质量与房屋均价存在较强相关性的准确性。

综合以上关于居民情况与房屋均价的探究,可以看出波士顿地区的房屋均价与居民的人种并没有相关性,只与其教育程度或者社会地位有较强的相关性

15. 河流边界房屋情况的条形图

最后,为了探究房屋均价是否和该房屋是否是河流边界房屋之间存在相关性,先对波士顿房屋的河流边界情况进行绘制条形图。

通过以上河流边界房屋情况的条形图可以看出该数据集中,波士顿地区的大部分房屋并不处于河流边界地段,仅有一小部分是属于河流边界地段。该条形图得出的结论也符合河流边界房屋资源有限的推论。

16. 河流边界房屋的均价的箱线图

对于环境问题是否会影响地区房价,可以利用此数据集的字段CHAS,结合分箱散点图查看河流边界和非河流边界的房屋的均价分布情况。

从该箱线图中可以得知河流边界房屋的均价整体水平会高于非河流边界房屋的均价,该结论符合我们对于河流边界房屋价格更高的认知。但是非河流边界的房屋存在较多的异常值,其导致的原因可能是受到其他字段的影响,比如:该房屋附近居民教育程度较高或者距离市中心距离较近等等。相反,河流边界的房屋存在较少异常高的房价,整体房价比较统一。

17. 财务税收直方图

最后,在美国每个州的税收情况也会很大程度影响房屋的定价,因此可以通过直方图查看该地区财务税收的整体情况。

通过以上直方图可以看出,波士顿地区的房屋税收多集中于每10000美元658美元的税收标准,大致计算税收率在0.065%左右;部分房屋税收在每10000美元291美元的税收标准,税收率大约在0.029%左右

最终通过此案例,可以对波士顿地区的房价建立一个较为完善的认知。首先,通过数据筛选的工作定位到一间房价异常高但是平均房间数较低的房源,此房源周边环境良好多为住宅区处于非河流边界房屋,城镇居民素质高教育水平较高犯罪率较低,其地理位置交通便利,距离市中心较近。其次,通过散点图探索影响波士顿房价高低的因素过程中得知,波士顿地区的房屋均价与居民教育程度以及社会地位有较强的相关性,与居民的人种并没有较强相关性。最后,通过箱线图验证了在波士顿地区,河流边界的房屋整体房价较非河流边界的房屋房价高,但不排除非河流边界房屋受到其他影响因素存在一些超高价房源,河流边界房价整体较为统一

0 人点赞