方差分析为多样本检验,其核心为假设检验,此外,方差分析还可以做多重比较。方差分析本身是一种假设检验,同时也是一种模型,是回归模型的特例,回归模型为线性模型,方差分析为一般线性模型。实际应用中方差分析单独出现的可能性很小,一般在实验设计场景用的较多,项目中用方差分析去支撑项目的情景基本不会出现。
方差分析分类
1单因素方差分析
单因素方差分析用来研究一个因素的不同水平对观测所产生的影响,例如不同浇水量对家里绿萝生长的影响、不同的省的日照差异对人的寿命的影响、不同工作时长对人情绪的影响等等,以上皆可以使用单因素方差分析的方法进行探索分析。
下面即为其实现的SAS代码:
SYMBOL1 INTERPOL=BOX VALUE=CIRCLE;
PROC GPLOT DATA=XUHUI.DATA;
PLOT InCome * Edu/
VAXIS=AXIS1
HAXIS=AXIS2;
RUN; QUIT;
2单因子方差分析
单因子方差分析为只考虑一个分类型自变量影响的方差分析,例如全家便利店的选址对营业额是否有显著影响、不同学历对收入的影响是否显著等,这类问题都可以用单因子方差分析进行解决。
如下为其实现的SAS代码:
PROC GLM DATA=XUHUI.DATA ;
CLASS edu;
MODEL avg_exp= edu_class/
SS3
SS1
SS2
SS4
SOLUTION
SINGULAR=1E-07
;
lsmeans edu_class/pdiff;
RUN;
QUIT;
参数解释:
2.1 class参数告诉SAS软件edu变量是因子
2.2 SS形式表示离差平方和,离差平方和共有四种类型,一般默认的是第三种类型SS3,如果代码中不进行说明,则默认为SS3类型;
2.3 solution意为需在结果中显示参数估计结果
2.4 lsmeans表示多重比较,如果P值小于0.05则表示差异显著,或者可以通过图形来查看多重比较的结果,图形的解读方法为 如果图形中两个相减等于0则表示他们相等,然后求出两者均值差并做区间估计,如果区间包含0则有可能两者相等,即不显著,图中的对角线即所谓的0,图中各个斜线表示差的区间,如果对角线相交表示差异不显著,这张图很明显都没有与对角线虚线相交,如果相交则为红色,这里表示均显著。
2.5 singular表示奇异值。在统计软件的后台计算过程全部都是矩阵计算,singular默认值为1E-07
3多因子方差分析
多因子方差分析为考虑了多分类自变量影响的方差分析,这种分析会涉及到多因子交互的问题,例如收入是否受到学历与性别的显著影响,如下为有交叉项的双因素方差分析的SAS代码:
PROC GLM DATA=XUHUI.DATA PLOTS(ONLY)=INTPLOT;
CLASS edu_class gender;
MODEL avg_exp=edu_class gender edu_class*gender/
SS3
SOLUTION
SINGULAR=1E-07
;
RUN;
OUTPUT OUT=WORK.PRED PREDICTED=predicted_avg_exp ;
RUN;
QUIT;
下图中的残差图用于判断方差分析是否符合假定,即下面的第一个小图,这里明显出现了异方差,因此需要对因变量Y做一些变换处理,此处分布为正态分布,故需对Y进行对数变换,目的是将右偏的数据往正态状态拉一拉。如果分布是水平、U型与J型分布,对Y进行对数变换则不可行,需要进行Box-Cox变换。