《大话脑成像》之七——假设检验和效果量

2018-04-08 16:07:57 浏览数 (1)

费希尔推荐您欣赏这篇文章并关注思影科技!

又到了新一期与读者见面的时候,这期内容可能有点难,有的人会说高端玩家,你膨胀了,你不带我们玩了,不存在的,我还是你们的真心老铁。

在MRI脑影像领域,统计是几乎必不可少的一环。很多软件如SPM,FSL都可以进行统计分析。我们习惯了点点点。但这背后的机理是什么?

首先要有原假设H0(一般假设某种效应不存在)和备择假设H1(假设效应存在)。然后统计推断得到P值,如果P值很小(比如P<0.05),说明这件事情发生是小概率事件,原假设不成立,从而判定效应存在(是不是与以前学的反证法过程类似)。如果P值过大(如P>0.05),这时候接受原假设。如果P=0.05怎么办?只能说这是一个尴尬的P值,有人称在P在0.05 附近时为边缘显著(当然也有人不认可这种边缘显著)。这里还有个有趣的问题,为什么要以0.05作为显著性的临界值?这个只能问问费希尔(据说是靠费希尔当时神奇的直觉感应到的!!!搞数学的这帮人的世界,一般人进入不了)

下面进入严肃的问题,来了解统计学中一些重要的概念。

举一个实际的例子。环保局要检查某个工厂污染排放是否有问题。假定污染排放量的上限是3。原假设是该工厂污染排放没有问题,环保局派人进行抽样调查,发现该工厂的污染排放量是4,那么我们是否就可以下结论说该工厂有问题。不是!我们还需假设检验,得到P值,如果P>0.05,我们就认为污染排放量4是由于随机抽样误差引起的(刚好抽到了污染多的地方)。如果P<0.05,说明该工厂污染严重。这里注意下。我们说该工厂污染严重有一定几率是错的,即该工厂没有污染,而环保局认为它污染严重(冤枉别人),这种错误称之为I型错误(也叫假阳性率)。还有一种情况,是该工厂污染严重,而环保局认为它没有污染(包庇工厂),这种错误称之为II型错误。具体看下图:

上面图表有两种正确的结果。一是工厂没污染,环保局鉴定过后确实没污染;二是工厂有污染,环保局鉴定后确实污染。这两种结果无需过多关注。我们更感兴趣的是I型错误和II型错误。

那么哪种错误更严重?对于环保局来说,肯定不能冤枉别人,所以应考虑控制I型错误。II型错误的后果是:工厂继续污染,没有得到惩罚,周围百姓继续忍受污染。对于周围百姓来讲,要控制II型错误。那么一个理想的方案是把I和II型错误都控制很小,然而现实是不可能的!!!!!比如要把P控制在P<0.0000000000001,这样我们才拒绝H0(非常小心求证)。那么要找1000条污染证据才能让P达到这样小。但事实上,结果我们只找到20条证据,这时候自己都会对自己说:证据这么少,这个工厂应该没有污染吧!看,II型错误显著上升了。那么有没有办法在其他条件一定的情况下,降低II型错误呢? 唯一的办法就是增加样本量(样本量增多,就有可能找到更多的证据)!!

下面介绍Power。Power=1 - II型错误。II型错误是工厂确实污染,环保局认为没污染。那么Power就是工厂确实污染,环保局认为工厂也污染(正确打击了这种危害性工厂)。所以Power指的是对真实存在的差异正确检测出来的能力。Power越大说明检测差异的能力越大。一种统计方法,即使差异再小,它都能把该差异检测出来,就说该统计方法的Power很大。比如比较两组人的ALFF,如果该统计方法的power=0.8,就是说10个脑区有真实差异,我就能检测出来8个。

下面介绍效果量。

当我们辛辛苦苦收集完数据,统计结果也显著(P值那是相当小),觉得非常perfect的时候,突然审稿人来了一句:请报一下研究的效果量!。你不觉会问:这是什么东东?

效果量,英文名为effectsize。假设对两组数据的均数差异进行统计推断,会得到统计值T值和P值,如果P<0.05,那么就说该差异显著。问题是这样的显著性差异在实际中有没有用?统计推断会受样本影响。比如调查男女身高的差异,在重庆收集了一批样本,发现男性身高显著高于女性。那么这种结论能否推广到其它城市?显然不能。统计推断还会受样本大小的影响。比如研究某治疗方法对治疗抑郁症是否有效,实际结果是实验组比控制组平均高4分,两组人数都是12人,标准差都是8。可以计算P>0.05,不显著。但当两组的人数增加到100(均数差异和标准差不变),差异极其显著。而下结论说该治疗方法有显著效果是不令人信服的。也就是说通过增大样本量达到的统计显著可能并没有实际效果。如果P值很小,但是效果量也很小,就说明即使该治疗方法效果显著,但并不能在实际当中使用。只有那种P值小,效果量也大的治疗方法才能推广使用。

所以效果量反应的是该差异在实际上是否“显著”(不受样本容量大小的影响),而P值只反应该差异在统计上是否显著。比如对于男女人数的显著差异(假设男人数>女人数),如果效果量大,表明随便往哪条大街上一站,就能看到男人多于女人。如果效果量很小,那么男人多于女人这种现象可能只限于某局部区域(如某某理工类高校!!!)。正因为效果量重要,所以美国心理学会1994年就发出通知,要求公开发表的研究报告需包含效果量的测定结果。

图2.Cohen’s d图示例

下面介绍几种效果量的计算方法:

0 人点赞