优思学院|一文看懂散布图(六西格玛统计工具)的原理和使用场景

2022-10-18 17:56:27 浏览数 (3)

什么是散布图?

散布图是为了调查两种数据间的相互关系,一方在横轴、另一方在纵轴,并将测定值绘出的一种图表;例如,压入时间与接着强度之间的关系、电镀时间与电镀厚度的关系等。

散布图是表示出相对的一组特性关系的道在制造上,常常为了要得到要求的品质,而必须控制其原因。

例如,为了要得到所需要的接着强度,因此必须调查接着强度(结果)与压入时间(原因)的关系。如果借由控制压入时间可以得到所需要的接着强度时,管理压入时间就会比管理接着强度来得简单,同时也能降低价格、提高生产性。

但是散布图并非只能利用在原因与结果的关系上,它也可以运用在结果与结果,或原因与原因的关系上。基本上,它是了解两种变数关系(称为相关关系)的道具。

何時使用散布图?

散布图主要使用于解决问题之原因调查阶段。例如在使用魚骨图时,如果输出及输入之间有相关的话,就将其要因判定为原因,然后再进一步检讨如何控制此原因的对策。

如果没有相关的话,就判定为在可控管的对象外。

魚骨图的两种要因间若有相关的话,就可推测其要因具有原因与结果的关系,或是针对原因之连动的两种结果。

散布图的一些示例

示例 1:递增关系 图 1 中的散布图显示了递增关系。x 轴显示公司的员工人数,y 轴显示公司的利润。该散点图显示,随着员工人数的增加,利润也会增加。员工人数较少的公司(在图形左侧)利润较低,员工人数较多的公司利润较高。这是一个非常简单的示例,因为有许多变量会影响公司的利润。

图 1:显示递增关系的散点图

示例 2:递减关系

图 2 中的散布图显示了递减关系。x 轴显示某加工肉的含钠克数;y 轴显示每千克蛋白质的成本。该散点图揭示,随着钠含量的增加,蛋白质成本会下降。钠含量较低的肉(图形左侧)蛋白质成本较高,而钠含量较高的肉蛋白质成本较低。这是有依据的,因为可以向低质量(因而成本较低)的肉中添加盐来改善其味道,这会增加钠含量。

图 2:显示变量之间递减关系的散点图

示例 3:不相关 图 3 中的散布图显示两个变量之间没有关系。x 轴显示预洗牛仔布纤维的载荷大小;y 轴显示测量的线磨损情况。该散布图显示了随机点云图。虽然有人可能会看到,随着载荷大小向右沿着图形增加,线磨损情况略有减少,我们可以使用简单线性回归来验证这种想法。

图 3:表明变量之间没有关系的散点图

示例 4:曲线关系 图 4 中的散布图显示了两个变量之间的曲线关系。x 轴显示一组国家/地区的人口出生率;y 轴显示人口死亡率。散点图显示,在出生率达到 25 至 30 之前,两个变量呈递减关系。在达到这个点之后,变为递增关系。

图 4:显示变量之间曲线关系的散点图,从递减变为递增

示例 5:散图中的离群值 数据中的异常点(即离群值)在散点图中往往非常突出。 图 5 显示了含有离群值的散点图,图 6 显示了相同数据不含离群值的散点图。位于右上角的单个离群值会影响数据在散点图中的可视化。当散点图中包含异常数据点时,您可以调查数据,以找出出现离群值的原因。您可以显示包含离群值和不含离群值的数据。

图 5:包含离群值的散点图

图 6:不含离群值的散点图

0 人点赞