以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/
很多数据集里面都包含有两个或者更多的连续性变量,有时候我们比较感兴趣这些变量之间存在什么相互作用关系。例如,我们可能有不同动物的量化测量数据集,如动物的身高、体重、长度和每日能量需求。为了绘制仅仅两个这样的变量的关系,例如身高和体重,我们通常会使用散点图。如果我们想一次显示两个以上的变量,我们可以选择气泡图、散点矩阵或相关图。最后,对于非常高维的数据集,执行降维可能是有用的,例如以主成分分析的形式。
11.1 散点图
这里,我们使用对123只蓝松鸦体征数据集来演示基本的散点图和其中的几个变量。这个数据集包含诸如头部长度(从喙尖到后脑勺测量)、头骨大小(头部长度减去喙长度)和每只鸟的身体质量等信息。我们认为这些变量之间是有关系的。例如,长喙的鸟应该有更大的头骨尺寸,高体重的鸟应该比低体重的鸟有更大的喙和头骨。
为了探究这种关系,我们从头部的长度和身体的质量来开始。在下面的图中,头的长度在y轴上表示,身体质量在x轴上表示,每只鸟都用一个点表示。这就是所谓的“散点图”,通过上图我们可以发现一种趋势,即身体质量越高,头部越长。
另外在这个数据集当中,还包括了性别变量。因此我们想要知道头部长度和身体质量之间的关系是否在性别当中都适用。为了解决这个问题,我们在?的散点图当中,使用性别这个变量进行着色。通过下图我们可以发现,头部的长度和身体质量至少有一部分原因是由鸟类的性别决定的。在体重相同的情况下,雌性的头部往往比雄性的短。另外,平觉而言,雌性比雄性要轻
另外数据集当中还有一个头骨大小的变量。因此我们想要在上面数据的可视化的基础上,再观察头骨大小是否和头部长度有关系。在?的可视化当中,我们用X代表身体质量;用Y代表了头部长度;利用颜色来映射性别。那就需要另外一个来映射头骨大小,这里我们选择使用点的大小代表头骨的大小。因此就出现了?这个图。类似这种我们把一个变量映射到点的大小上形成的图,我们称之为 气泡图。
11.2 散点图矩阵
气泡图的好处,是我们可以把多个变量放到一个二维的图形上面进行展示。但是对于气泡的大小和其他变量的关系,我们在感官上并不能很明显的表现出来。因此作为气泡图的一个替代方法,我们可以对所有变量绘制散点图矩阵。在这个矩阵上。
在下图的下图的散点图矩阵上,我们可以看到三个变量(身体长度,头骨大小以及身体质量)互相为XY变量下绘制出的散点图。通过这个矩阵我们可以看出不同变量的散点图是什么样子的。