接统计学整理(二)
方差分析(ANOVA:ANalysis Of VAriance)
t检验 vs 方差分析
- t检验
- 两组均值的比较
- (H_0:μ_1=μ_2)
- (H_A:μ_1≠μ_2)
- 方差分析
- 三组或以上均值的比较
- (H_0:μ_1=μ_2=...=μ_k)
- (H_A:μ_1,μ_2,...,μ_k)不全相等
成绩 | 教学法 |
---|---|
90 | A |
82 | A |
92 | A |
79 | B |
88 | B |
95 | B |
上表中的成绩为数值变量:response/dependent variable(DV),一般称为响应/因变量;教学法为分类变量/因素(factor;2个水平):explanatory/independent variable(IV),一般称为解释/自变量。上表具备了做t检验的条件,教学法A的成绩总体均值为(μ_1),教学法B的成绩总体均值为(μ_2)。它主要检验的是成绩是否受教学法的影响,如果教学法不能解释成绩的变化的话,则(μ_1=μ_2),如果教学法可以解释成绩的变化的话,则(μ_1≠μ_2)。
成绩 | 教学法 |
---|---|
90 | A |
82 | A |
92 | A |
79 | B |
88 | B |
95 | B |
97 | C |
100 | C |
88 | C |
上表中的成绩为数值变量(DV),教学法为分类变量/因素(>2个水平;IV)。 教学法A的成绩总体均值为(μ_1),教学法B的成绩总体均值为(μ_2) ,教学法C的成绩总体均值为(μ_3) 。如果我们依然想考察成绩的变化是否能够用教学法来解释,此时我们就可以使用方差分析了(One-way ANOVA,单因素方差分析,表示这里只有教学法这一个因素)。
成绩 | 教学法 | 奖励 |
---|---|---|
90 | A | 是 |
82 | A | 是 |
92 | A | 否 |
79 | B | 否 |
88 | B | 是 |
95 | B | 是 |
97 | C | 否 |
100 | C | 是 |
88 | C | 是 |
上表中的成绩为数值变量(DV),教学法为分类变量/因素(≥2个水平;IV),奖励为分类变量/因素(≥2个水平;IV)。在这两个分类变量任意一个变量的一个水平下,都可以再进行进一步的细分,包含另外一个分类变量的显著水平。比如说在教学法的A水平下对应的奖励一个水平是"是",另一个水平是"否";反过来在奖励的"是"水平下,对应教学法的A、B、C。此时就形成了组合,在教学法为A,奖励为"是"时,称为组1/条件1, 成绩总体均值为(μ_1) ; 在教学法为A,奖励为"否"时,称为组2/条件2, 成绩总体均值为(μ_2) ;在教学法为B,奖励为"是"时,称为组3/条件3, 成绩总体均值为(μ_3) ;在教学法为B,奖励为"否"时,称为组4/条件4, 成绩总体均值为(μ_4) ......。此时也可以使用方差分析(Two-way ANOVA,双因素方差分析,表示这里有教学法、奖励两个因素)来解决问题。以上是一个3*2的实验设计,如果教学法只有A和B的话,那么就是一个2*2的实验设计。这里想研究的问题为成绩的变化是否可以用教学法来解释,成绩的变化是否可以用奖励与否来解释以及成绩的变化是否可以用教学法和奖励的交互作用来解释。
虽然我们可以继续添加分类变量,但是对于方差分析来说,分类变量过多,我们得到的结果将会变得很难解释,所以在一般情况下,我们做到Two-way ANOVA就可以了。
- 方差分析的核心
对因变量的总变化进行划分
- 自变量引起的变化(可以解释的变化)
- 其他因素引起的变化(无法解释的变化)
对应到前面的例子,因变量的总变化就是成绩的变化,自变量引起的变化是教学法引起的变化,奖励与否引起的变化以及教学法与奖励交互作用引起的变化,这些是由我们操纵的,可以解释的变化,而对于我们实验没有进行操纵的因素引起的变化就是无法解释的变化,也称为误差。
({自变量易引起的变化(可以解释的变化)over 其他因素引起的变化(无法解释的变化)}=F)
这两者的比值正好是一个F统计量,服从F分布
如果自变量引起的变化远远大于其他因素引起的变化,即F值大于某一个阈值,我们就认为自变量确实可以解释因变量的变化,即我们要拒绝(H_0)(各组的总体均值相等)。对应到上图就是这个比值落在了这个阈值右侧的话,我们就拒绝(H_0),这个阈值的查找就是F分布在该值右侧曲线下的面积=α,这个α常用的是0.05,代表了犯一类错误的概率。在方差分析中,我们只做单尾检验中的右尾,如果在左尾的话,就意味着自变量引起的变化还没有其他因素引起的变化大,那么自变量引起的变化就不足以解释因变量引起的变化。