数据科学通识第八讲:数据可视化

2020-05-09 10:25:19 浏览数 (1)

视频内容

数据可视化是什么

下面这四组数据是由统计学家Francis Anscombe在1973年精心构建的。大家直观地看这四组数据,能否看出什么规律呢?

我们运用简单的线性回归分析,会发现这四组数据中 x 的均值都是9.0,y 的均值都是7.5。此外,它们的方差、皮尔逊相关系数及线性回归线都相同。单从这些统计特性上看,四组数据所反映出的实际情况非常相近。可是事实上,这四组数据有着天壤之别,通过图表展示后,大家会发现这四组数据是完全不同的情况。

  • 第一组数据的散点图是多数人看到上述统计特性的第一直觉,是最正常的一组数据。
  • 第二组数据所反映的事实是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计特性与第一组数据恰好都相同。
  • 第三组数据描述的是一个精确的线性关系,只是其中有一个异常值,这一点导致了上述统计特性,尤其是相关系数的偏差。
  • 第四组数据更是一个极端的例子,由于存在着异常值,导致了平均数、方差、相关系数和线性回归线等所有的统计特性全部发生了偏差。

事实上人类从外界获取信息,其中83%来自于视觉,由此也反映了数据可视化的重要性。

那么数据可视化是什么呢?它事实上是一种映射,将客观世界的信息映射为易于被人类所感知的视觉模式。通过数据可视化,可以帮助人们探索、解释隐藏在数据背后的信息;同时可视化技术也在保障信息传递的同时来寻求数据之美。因此可以说数据可视化既是一门科学,也是一门艺术。

上图所示的是2016年美国总统大选的结果。通过这个图可以清晰地看到希拉里·克林顿和特朗普在美国各个州的得票情况。

数据可视化的分类

根据目标的不同,数据可视化可以分为探索性分析和解释性分析两种。

  • 探索性分析可视化是为了探索、理解数据,找出事先不确定、但值得关注或分享信息的一种可视化技术。
  • 解释性分析则是为了向受众解释确定的已知问题,并有针对性地进行交流和展示。

数据可视化经典作品

下图是著名的南丁格尔玫瑰图。南丁格尔是最早的护理学提出者,现在很多护士就职前的宣誓,也被称作南丁格尔誓言。南丁格尔除了是一名护士以外,她也是一名著名的统计学家。在克里米亚战争时期,她通过搜集数据发现很多士兵的死亡原因,并非是战死沙场,而是在战场外感染了疾病,没有得到很好的护理。

为了呈现并解释士兵的死亡的原因,她制作了这张著名的图表,即南丁格尔玫瑰图。这个图表实际上是一个半径不等的扇形图,呈现了在不同的月份和季节,士兵的死亡原因的占比,而占比最大的绿色区域指的便是没有得到适当的护理。通过这张图,当时的政府官员可以非常直观地了解具体情况,并且支持南丁格尔加强战场外的相应护理投入。

数据可视化的意义

数据可视化的最大意义是将抽象的数据和数据分析结果,利用合适的图表,清晰而直观地表达出来,用来帮助人们推理和分析数据背后的规律,从而提高人们认识数据的能力和利用数据的水平。

可视化图形介绍

散点图

散点图是因变量随自变量变化的大致趋势图。数据点绘制在直角坐标系上,以一个变量为横坐标,另一个变量为纵坐标。散点图利用坐标点(散点)的分布形态来反映变量的统计关系。

幻灯片右上的散点图反映了温度和共享单车使用量的关系。右下的图是多变量的散点图,在这个图里,红色的点代表女性的身高和体重的分布关系,蓝色的点代表男性的身高和体重的分布关系。

散点图特别适合应用于判断两个变量之间是否存在某种关联或者发现数据分布、聚合情况的场景。它的优点是:

  • 可以展示数据的分布和聚合情况
  • 适合展示较大的数据集
  • 通过反映数据在一个有序的因变量上的变化,来反映事物随类别而变化的趋势

下面我们介绍单一和分组的概念。在温度和共享单车使用量散点图中,我们把单车使用量看作是因变量,把温度看作是自变量。在这个问题中,只有单一的一个自变量,所以我们可以用单一颜色的散点图来把它呈现出来,这种处理方法我们也称作单一变量类型的图形。

如果因变量的变化受两个或两个以上的自变量的影响,这样的数据我们怎么来呈现呢?这时候我们可以用分组变量来表示。比如在身高和体重散点图中,同时反映了体重与身高、性别之间的关系,注意在这里有两个自变量,一个是体重,一个是性别。我们可以通过对性别进行分组,来保证在一个二维的平面直角坐标系中呈现具有多个自变量的情况的数据。

折线图

折线图用于显示随时间或某种有序的类别而变化的趋势。在折线图上,横轴通常表示时间或者某种有序的类别,纵轴来表示变化趋势。

比如下面幻灯片右上的图是2018年7月初《我不是药神》的电影票房情况折线图。可以看出在7月1日时,电影的票房比较低,但是随后几天票房得到了一个快速的增长,在7月7号附近,票房达到了最高点并且保持了一个持续稳定的状态,随后票房开始下降。

右下图是四个国家按购买力差异调整的人均GDP随时间的趋势变化情况。

折线图特别适合展示数据在一个有序的因变量上的变化情况。它的特点是反映事物随类别变化的趋势,可以清晰展示数据的增减趋势和速率、增减的规律和峰值等特征。它的优点是:

  • 能够很好地展现沿某个维度的变化趋势
  • 适合展现较大的数据集

下图显示了共享单车的使用量与季节的关系。可以看出,随着天气越来越暖和,共享单车的使用量在逐渐地上升,而随着天气变冷,使用量在下降。 在这张图上,绿色线代表了2011年,黄色线代表了2012年,对比起来也非常直观。

柱形图

柱形图也叫柱状图,是一种显示变量的数值多与少的直观方法。通常横轴用来表示数据的分类,因此适合展现自变量是离散数据的情况。每一个条形代表一类数据,纵轴表示数量。比如下图表示从离散分布泊松分布中抽取一些随机数绘制的柱形图。

当图形中有两个分类变量、一个数值变量的时候,可以绘制分组柱形图,即分组柱形图可用于展示三维数据。比如下面幻灯片右上张图代表了三个上市公司对应的三只股票的固定资产和流动资产的情况,蓝色代表的是固定资产,灰色表示的是流动资产。

右下图称作堆积柱形图,它与分组柱形图类似,区别只是以叠加的形式进行展示,它适用于不同的子类求和有意义的场景。这张图把固定资产和流动资产进行了堆积,是因为固定资产和流动资产是可叠加的。

条形图

条形图使用的可视化元素是一维空间的长度信息。研究表明,条形图在比较不同类别时的效果要比柱形图差一些,这可能是基于人的视觉的一些特征。但总体上来讲,条形图和柱状图的差异不大。比如下面幻灯片右上图代表了不同行业的股票数量的统计情况,右下图代表了不同产品类别的销售额的对比情况。

无论是柱状图还是条形图,它们的应用场景与优势是共同的:都适合用于展示二维的数据集,展示数据的分布情况,其中一个轴表示需要对比的分类维度,另一个轴用来代表相应的数值。它们的优点是:

  • 简单直观。
  • 通过柱形的高矮和条形的长短,可以非常直观地看出不同组数据之间的差异性。

直方图

直方图适合用来展示数值数据的分布。通常横轴表示一个范围内的连续数据,纵轴表示分布情况。直方图的绘制方法如下:

  • 将横轴的连续数据进行分组,通常采用平均分组,这样画出来的每一个条形的宽度也是相等的。比如,我们将数据1~100平均分为10组,那么第1组就是1~10。
  • 统计每组情况的出现的频数。
  • 按统计结果来绘制图形。

直方图特别适合用于展示连续数据的分布情况,横轴上的数据是连续的,而纵轴上的数据代表数据对应的频数或频率。比如一年内不同气温出现的天数,我们就可以用直方图非常直观地呈现。它的优点也是简单直观,易于看出数据分布的变化趋势。

饼图

饼图是条形图的变种,它能够很好的展示各个分量在总体中的比例。比如在下面幻灯片的右上图中,用不同颜色的扇形来对应不同的分量,蓝色代表事例一,绿色代表事例二,草绿色代表事例三,黄色代表事例四,红色代表事例五。从饼图中我们可以看出事例一占比40%,是最大的分量。有时候我们也会绘制空心饼图,比如在右下这张图中,表示了一个人24小时的作息情况。

饼图的绘制方法是:

  • 统计每个分量的频数或者频率。
  • 绘制饼图,每个分量对应扇形的面积由分量的频数或频率的大小来决定。

饼图适用于用户更关注于简单占比的情况。它的特点也是简单直观,很容易看到组成成分的占比。

箱线图

箱线图,又称盒须图、盒式图或盒状图,是一种显示一组数据分散情况的统计图,特别方便用于异常值的检测。它的横轴通常表示分类的数据,纵轴表示数量。比如在下面幻灯片的右上图中显示了三种花的不同特征的分布情况,三个颜色代表鸢尾属植物的三种花。这三种花型在花萼的长度、宽度以及花瓣的长度和宽度这四个特征上具有不同的分布特点,通过这样的一个箱线图便可以直观地表达。

箱线图特别适合于观察数据总体分布的场景。从图中我们可以观察到数据的分位数等统计信息,并且可以大致判断数据的分布形态、识别数据中的异常值。它的优点是,当比较多个数据集的分布时,它所占用的空间相对较小,且可以观测到数据的许多信息。

高级图形

除了上述介绍的这些基本图形以外,还有许多高级图形。比如下面幻灯片右边第一幅图称为气泡图,它是散点图的一个变体,以散点的面积大小表示数值变量的大小,配合位置和不同的颜色来展示三维、甚至是四维的数据。

右边第二幅图是小提琴图,形状看起来像一个个小提琴,它是一种展示多组数据集中和离散趋势的方法。

右边最后一幅图称作热力图,它常常用来显示地理数据,以便展示活动发生的高密度或高聚集区域的情况。

数据科学通识系列

数据科学通识第一讲:数据 数据科学通识第二讲:数据科学 数据科学通识第三讲:数据科学的应用 数据科学通识第四讲:数据采集 数据科学通识第五讲:数据管理 数据科学通识第六讲:数据治理 数据科学通识第七讲:数据分析

0 人点赞