正态分佈的假设
正态分布的假设,经常应用于很多统计分析方法中,例如控制图(Control Chart)、 制程能力分析(Cp/Cpk)、t-检验、及变异数分析 (Analysis of variance, ANOVA)等等。
当数据不是正态分布时,则此类资料非服从或接近正态分布,我们必须进一步探讨并采取补救措施,包括调查原因、或者进行数据转换、或使用其他类型的分布)。
实际上,不少制程与可靠度资料均非呈现正态分布, 而大部分六西格玛与制程能力分析工具,均假设资料为正态分布 。所以,我们作为数据分析者、六西格玛绿带、黑带、质量工程师等都应该了解一下转换数据的方法。
统计学家George Box and David Cox发展出一套方法公式用以鉴别出一个适当的指数(Lambda=l) ,转换数据成为正态分布样态(形状),这个Lambda值代表资料的次方数。 为了达到此目的,Box-Cox转换方法自Lambda=-5到 Lambda= 5间找寻最佳的值 。
Box-Cox转换方法
非正态的数据可以利用Box Cox Transformation 转化为正态的数据,这一个颇常用的方法。
例子:原始数据:
第一步:进行正态性检验,看数据是否遵循正态分布
从上图中,P<0.005,因此数据不遵循正态分布,从直方图中可以明显看出数据偏向一边。
第2步:使用Box Cox变换对数据进行变换
变换后的数据:
第3步:再次测试正态性
从上图中,P值>0.05,因此很明显,数据遵循正态分布,从直方图中我们也可以看到数据也是均匀分布的。