在六西格玛众多的工具当中,箱形图最常见于描述数据分布的情况。箱形图可以让我们直观地了解到数据的实际分布情况,它的范围是什么,以及它的偏移度怎样。
最小值是数据集中的最小值。
而最大值是数据集中的最大值。
因此,这两者之间的差异告诉我们数据集的范围。
中位数是数据的中位数(或中心点),也叫第二四分位数。 Q1是数据的第一个四分位数,也就是说,25%的数据位于最小值和Q1之间。
Q3是数据的第三个四分位数,也就是说,75%的数据位于最小值和Q3之间。
Q3和Q1之间的差值被称为四分位数间范围或IQR。
IQR = Q3 - Q1
检测异常值的方法
为了使用这种方法检测异常值,我们会定义了一个新的范围,我们称之为决策范围,任何位于这个范围之外的数据点都被认为是异常值,这个范围的定义是这样的:
下限:(Q1 - 1.5 * IQR)
上限:(Q3 1.5 * IQR)
任何小于下限或大于上限的数据点都被认为是异常点。
有很多学生都提出了同一个疑问,就是为什么要用1.5这个值呢?
的确,谁有权利去定义这个值呢?这个值显然控制了范围的敏感性,从而控制了决策的规则。
其实,这个值的定义,也是离不开正态分布的原理的。
根据正态分布:
整个数据中约有68%位于平均值(μ)的一个标准差(<1σ)之内(两边)。
大约95%的整体数据位于均值(μ)的两个标准差(2σ)之内(两边)。
大约99.7%的数据位于平均值(μ)的三个标准差(<3σ)之内(两边)。
其余0.3%的数据位于平均值(μ)的三个标准差(>3σ)之外(两边)。
而Q1和Q3,分别位于离平均值-0.675σ和 0.675σ。
如果我们用 " 1 " 这个值作为上下限的计算。
下限:
= Q1 - 1 * IQR
= q1 - 1 * (q3 - q1)
= -0.675σ - 1 * (0.675 - [-0.675])σ
= -0.675σ - 1 * 1.35σ
= -2.025σ
上限:
= Q3 1 * IQR
= Q3 1 * (Q3 - Q1)
= 0.675σ 1 * (0.675 - [-0.675])σ
= 0.675σ 1 * 1.35σ
= 2.025σ
因此,当用1时,根据IQR方法,任何数据如果超出平均值(μ)的2.025σ,在任何一边都应被视为异常值。但是,我们知道,我们不能采取 1 作为计算,因为这使得决策范围过于排他,也意味着会有近5%的有效数据将会被视为异常值。
如果我们用 " 2" 这个值作为上下限的计算。
下限:
= Q1 - 2 * IQR
= q1 - 2 * (q3 - q1)
= -0.675σ - 2 * (0.675 - [-0.675])σ
= -0.675σ - 2 * 1.35σ
= -3.375σ
上限:
= Q3 2 * IQR
= Q3 2 * (Q3 - Q1)
= 0.675σ 2 * (0.675 - [-0.675])σ
= 0.675σ 2 * 1.35σ
= 3.375σ
因此,使用2时,根据IQR方法,任何数据如果超出平均值(μ)的3.375σ,则应被视为异常值。但明显这会使得决策范围过于宽泛,意味着即使有异常的情况或者数据出现,也不会被定义为异常值。
如果我们用 " 1.5 " 这个值作为上下限的计算。
下限:
= q1 - 1.5 * iqr
= q1 - 1.5 * (q3 - q1)
= -0.675σ - 1.5 * (0.675 - [-0.675])σ
= -0.675σ - 1.5 * 1.35σ
= -2.7σ
上限:
= q3 1.5 * iqr
= q3 1.5 * (q3 - q1)
= 0.675σ 1.5 * (0.675 - [-0.675])σ
= 0.675σ 1.5 * 1.35σ
= 2.7σ
当使用1.5时,根据IQR方法,任何数据如果超出平均值(μ)的2.7σ,在任何一边都应被视为异常。而这个决策范围是最接近正态分布所告诉我们的:3σ = 99.72% 的数据。
如果希望更精确的得到3σ,我们需要取值=1.7,不过1.5 是一个比较容易记得和容易使用的数值。事实上,在统计学上的决策原则是基于机会率上,但同时也要考虑操作上的便利性的。