优思学院|箱形图利用1.5系数判断异常值的理由

2022-07-19 14:01:08 浏览数 (2)

在六西格玛众多的工具当中,箱形图最常见于描述数据分布的情况。箱形图可以让我们直观地了解到数据的实际分布情况,它的范围是什么,以及它的偏移度怎样。

最小值是数据集中的最小值。

而最大值是数据集中的最大值。

因此,这两者之间的差异告诉我们数据集的范围。

中位数是数据的中位数(或中心点),也叫第二四分位数。 Q1是数据的第一个四分位数,也就是说,25%的数据位于最小值和Q1之间。

Q3是数据的第三个四分位数,也就是说,75%的数据位于最小值和Q3之间。

Q3和Q1之间的差值被称为四分位数间范围或IQR。

IQR = Q3 - Q1

检测异常值的方法

为了使用这种方法检测异常值,我们会定义了一个新的范围,我们称之为决策范围,任何位于这个范围之外的数据点都被认为是异常值,这个范围的定义是这样的:

下限:(Q1 - 1.5 * IQR)

上限:(Q3 1.5 * IQR)

任何小于下限或大于上限的数据点都被认为是异常点。

有很多学生都提出了同一个疑问,就是为什么要用1.5这个值呢?

的确,谁有权利去定义这个值呢?这个值显然控制了范围的敏感性,从而控制了决策的规则。

其实,这个值的定义,也是离不开正态分布的原理的。

根据正态分布:

整个数据中约有68%位于平均值(μ)的一个标准差(<1σ)之内(两边)。

大约95%的整体数据位于均值(μ)的两个标准差(2σ)之内(两边)。

大约99.7%的数据位于平均值(μ)的三个标准差(<3σ)之内(两边)。

其余0.3%的数据位于平均值(μ)的三个标准差(>3σ)之外(两边)。

而Q1和Q3,分别位于离平均值-0.675σ和 0.675σ。

如果我们用 " 1 " 这个值作为上下限的计算。

下限:

= Q1 - 1 * IQR

= q1 - 1 * (q3 - q1)

= -0.675σ - 1 * (0.675 - [-0.675])σ

= -0.675σ - 1 * 1.35σ

= -2.025σ

上限:

= Q3 1 * IQR

= Q3 1 * (Q3 - Q1)

= 0.675σ 1 * (0.675 - [-0.675])σ

= 0.675σ 1 * 1.35σ

= 2.025σ

因此,当用1时,根据IQR方法,任何数据如果超出平均值(μ)的2.025σ,在任何一边都应被视为异常值。但是,我们知道,我们不能采取 1 作为计算,因为这使得决策范围过于排他,也意味着会有近5%的有效数据将会被视为异常值。

如果我们用 " 2" 这个值作为上下限的计算。

下限:

= Q1 - 2 * IQR

= q1 - 2 * (q3 - q1)

= -0.675σ - 2 * (0.675 - [-0.675])σ

= -0.675σ - 2 * 1.35σ

= -3.375σ

上限:

= Q3 2 * IQR

= Q3 2 * (Q3 - Q1)

= 0.675σ 2 * (0.675 - [-0.675])σ

= 0.675σ 2 * 1.35σ

= 3.375σ

因此,使用2时,根据IQR方法,任何数据如果超出平均值(μ)的3.375σ,则应被视为异常值。但明显这会使得决策范围过于宽泛,意味着即使有异常的情况或者数据出现,也不会被定义为异常值。

如果我们用 " 1.5 " 这个值作为上下限的计算。

下限:

= q1 - 1.5 * iqr

= q1 - 1.5 * (q3 - q1)

= -0.675σ - 1.5 * (0.675 - [-0.675])σ

= -0.675σ - 1.5 * 1.35σ

= -2.7σ

上限:

= q3 1.5 * iqr

= q3 1.5 * (q3 - q1)

= 0.675σ 1.5 * (0.675 - [-0.675])σ

= 0.675σ 1.5 * 1.35σ

= 2.7σ

当使用1.5时,根据IQR方法,任何数据如果超出平均值(μ)的2.7σ,在任何一边都应被视为异常。而这个决策范围是最接近正态分布所告诉我们的:3σ = 99.72% 的数据。

如果希望更精确的得到3σ,我们需要取值=1.7,不过1.5 是一个比较容易记得和容易使用的数值。事实上,在统计学上的决策原则是基于机会率上,但同时也要考虑操作上的便利性的。

0 人点赞