数据分析工作中经常会涉及到的样本T检验一般有三种:单样本T检验、配对样本T检验和独立两样本T检验。可以这样理解这三种T检验:
单样本T检验:回答的是样本均值"是这样么"的问题,例如食堂包子已经卖出去的情况下,判断每个包子的重量是否是规定的50g,这种情况下用T检验进行分析可以判断食堂是否偷工减料;
配对样本T检验:回答的的是组内两样本是否相同的问题,可以理解为某人/某事物自己之前的状态和之后状态的变动情况。例如裙子减价前后销量是否相同、即判断降价是否有效;再例如我这个月的考试成绩和下个月的考试成绩是否有差异;
独立两样本T检验:回答的是组间两样本是否相同的问题,可以理解为不同的两个人或两件事之间的差异。例如公司里男生的下班时间和女生的下班时间是否有差异。
如下为三种检验的SAS代码:
单样本T检验
PROC TTEST DATA = xuhui.local_score PLOTS=NONE ALPHA=0.05 H0 =0 CI = EQUAL;
VAR rate;
RUN;
配对样本T检验(其实工作中用到配对样本T检验的频率不高)
PROC TTEST DATA = xuhui.local_price PLOTS=NONE ALPHA=0.05 H0 =0 CI = EQUAL;
PAIRED Post * Pre;
RUN;
独立两样本T检验:
PROC TTEST DATA =xuhui.diff PLOTS=NONE ALPHA=0.05 H0 =0 CI = EQUAL;
CLASS Ad;
VAR Sales;
RUN;
以上的三种T检验alpha均设定为0.05,就着这个地方就可以说说我对西格玛的看法了:
以上三个T检验alpha均设定为0.05,即在做区间估计时区间置信度为95%,左右各2个标准差,这是小样本年代的规定,观念陈旧,并不一定适应当前商业分析的需要。当今商业分析质量管理中非常流行的的六西格玛概念指的是左右两边各3个共6个标准差,此时的区间置信度能达到99.99%。可以将六西格玛理解为 项目完成的过程中,所有的过程和结果能够做到99.99%是不出错的,即做100万件事情,只有2-3件事情做得不好,几乎可以算是人做事情能达到的最完美的效果了。
上面的0.05、95%以及99%到底指的是什么、怎么计算出来的呢?
可以这样理解,0.05是做事情的出错概率,那么1-0.05=0.95就是做事情做对的概率。在商业模型的参数有20个左右的情况下,连续20次做对的概率为0.95^20=0.35,此时p=1-0.95^20=0.64,此时P值过大不合理且做对的概率过低。故当前商业数据分析中P值一般设定为P=1-0.9999^20=0.001即万分之一,此时事情做好的概率即为99.999%了,也就是所谓的六西格玛所期望达到的完美标准。