ERP研究产生了大量的时空数据集。这些丰富的数据集是帮助我们理解认知和神经过程的关键。然而,它们也存在大量的多重比较问题,可能导致大量具有假阳性效应(effect)的研究(高I型错误率)。ERP统计分析的标准方法是对时间窗和感兴趣区域的平均,但这并不总是能控制第一类错误,它们的不灵活性可能导致检测真实效应的效力(统计效力,power,以下全部成为效力)较低。单变量方法提供了另一种分析方法。然而,迄今为止,它们被认为主要适用于探索性统计分析,只适用于简单的设计。在这里,我们提出了新的模拟研究,表明基于置换(permutation)的单变量检验可以用于复杂的因子设计。最重要的是,当使用强的先验时间窗和空间区域时,单变量方法比传统的时空平均方法提供略大的效力。此外,当使用更具探索性的时空参数时,它们的效力仅略有下降。我们认为,在许多ERP研究中,单变量分析方法优于传统的时空平均分析方法。本文发表在Psychophysiology杂志。
关键词 EEG, ERP, 单变量, 多重比较, 效力, 重复性, 统计
思影曾做过多期关于EEG/ERP统计的文章解读,可结合阅读(直接点击即可浏览):
需要多少试次才能获得显著的 ERP 效应? 这要看情况
如何在任意ERP实验中获得统计上显著的效果(以及你为什么不应该那样做)
1 引言
近年来,越来越明显的是,许多报告的结果在心理学和神经科学是不可靠的或不可重复的。这引发了很多关于方法、统计和职业激励的讨论和反思。正如我们下面将要讨论的,导致低可复制性的一些关键因素在EEG和ERP研究中被放大了。特别是,脑电图研究中产生的大量数据为分析的灵活性提供了机会,而目前该领域的实践并未充分解决这一问题。
在这篇文章中,我们讨论了ERP数据分析中的问题,这些问题削弱了我们得出有力结论的效力,并导致了文献中的虚假效应。然后,我们提出了单变量分析(mass univariate analysis)方法,这一方法通常被认为只适用于ERP研究的探索性分析,在许多这些问题上,它比传统的时空平均方法提供了改进。我们提出了一种新的软件来实现因子设计的单变量分析以及模拟研究,表明这些测试可以提供比传统分析方法更大的效力和更大的灵活性,同时适当地保持I型错误率。
1.1 可复制性是I型错误率和效力的函数
有许多潜在的原因导致无法复制研究结果。假设采用精确的方法复制之前的研究(包括从同一群体中抽样),无法复制结果是推论错误的问题。这意味着其中一项研究(无论是原先的还是复制的)得出了错误的结论。当这种复制失败很常见时,这意味着我们进行统计推断的程序是有缺陷的,通常会产生第一类错误(误报:错误地推断某一效应存在)或第二类错误(误报:错误地推断某一效应不存在)。事实上,我们有理由相信这两种错误都是常见的。
很多关于复制失败的讨论都集中在研究人员的自由度(researcher degrees of freedom)及其对Type I错误率的影响上。心理学和神经科学的研究经常涉及到收集多个或多维的自变量和因变量。即使是相对简单的设计,通常也有许多潜在的方法来处理和分析数据。当在一项研究中计算多个效应(由于多个自变量和因变量)或当数据以多种不同的方式分析时,这就提供了多个发现效应的机会。因为这些分析中的每一个都有一个独立(或部分独立)的错误率,这会有一个显著效应似乎支持假设,即使没有真实的效应。在许多情况下,复杂的设计和分析灵活性所引起的多重比较问题是隐藏或隐含的,因此,大大的假阳性概率并不总是显而易见的。正如许多作者所指出的,这是导致文献中假阳性效应的一个重要因素。正如我们将在下面讨论的,这个问题可能在ERP研究中特别突出。
导致低可复制性的第二个因素是低效力(power)(或高II型错误率)。当然,每个研究人员都想拥有强大的效力,因为我们不希望花费研究所需的时间和资源,却错过了真正的效应。然而,人们很少认识到的是,高效力对于产生可复制的效应也至关重要,也就是说,效力在我们的统计推断中发挥作用,不仅在我们没有发现效应的时候,而且在我们观察到显著效应的时候。这有两个原因。
首先,如果我们的研究有50%的效力,我们很可能会发现一个显著的效应。然而,如果我们试图复制这个结果,同样可能的是,我们将无法发现。那么我们该得出什么结论呢?
我们应该相信哪个结果?用统计学家R. A . Fisher(1966)的话来说,当我们知道如何进行一项实验时,我们就可以说一种现象是实验上可以证明的,而该实验很少会给我们一个统计上显著的结果(第14页)。从长远来看,我们得出的重要结论不是来自单一的研究,而是来自多个研究。除非我们持续地进行高效力的研究,否则文献提供的证据总是软弱而矛盾的。
效力对于产生可复制效应很重要的第二个原因是它影响了错误发现率:错误阳性的显著结果的比例。一个常见的误解是,如果我们设置α = 0.05,那么只有5%的显著结果是假阳性;也就是说,通常会错误地推断,如果一个结果是显著的,那么它有5%的可能性是错误的。然而,α是零假设在所有零假设为真的研究中被拒绝的比率,因此它作为所有长期进行的研究中假阳性率的上限。在产生显著结果的研究子集中,假阳性的比例通常要高得多。这个比例被称为错误发现率,它不仅是第一类错误率的函数,而且是效力的函数。
为了看到区别,假设我们进行了200次假设检验。其中有100种情况,零假设为真,Type I错误率适当控制在5%;另外100种情况是备择假设为真(即,存在一个正确的效应),但我们只有20%的效力来检测这个效应。我们期望找到25个显著的效应:在零假设为真的情况下有5个,在备择假设为真的情况下有20个。因此,20%的显著效应是假阳性,即使第一类错误率适当控制在5%(而且所有进行的研究中只有2.5%产生假阳性)。从这个例子可以明显看出,如果效力越高,错误发现率就越低。
特别是当与发表偏倚(只发表统计上显著的结果的倾向)相结合时,高的错误发现率可能导致文献具有高度误导性和充满假阳性。因此,低效力削弱了我们对显著效应是真实存在的信心。不幸的是,由于嘈杂的测量和相对昂贵的(在时间和金钱方面)数据收集,低效力的研究可能是认知神经科学的常态。
总而言之,当第I类和第II类错误率都很低时,零假设检验只能有效地区分真实效应和由于抽样误差而产生的效应。另一方面,当两者都很高时,实际上有可能获得的大多数显著结果是假阳性。
这就是约翰·约阿尼迪斯(John Ioannidis)的著名论断,即大多数发表的研究结果都是错误的(约阿尼迪斯,2005)。因此,至关重要的是,我们不仅要解决分析灵活性和适当控制Type I错误率,而且不能以显著降低效力为代价。
1.2 分析ERP数据的挑战
脑电图研究人员(以及功能磁共振成像和脑磁图研究人员)面临着大多数行为研究人员所面临的统计挑战,因为我们为每种实验条件收集了数千项测量数据。这是研究神经活动这类复杂事物的必然结果。此外,随着技术的改进和新的分析方法的开发,研究人员正在收集更大、更多维的数据集。然而,在选择如何分析如此大量的数据时,灵活性会显著增加Type I错误。
考虑一个简单的ERP实验,在该实验中,以500 Hz的采样率记录32个电极的测量值。从这个数据中提取到刺激开始后1000毫秒的分段。即使将单个试次平均后,每个受试者在每个实验条件下仍有16000个数据点。这就产生了大量的多重比较问题。也就是说,在这样的实验中,几乎可以保证在头皮上的某个时间窗口的某个点上,在传统分析中会有一个达到显著性的效应,即使零假设完全成立。因此,如果多重比较问题得到适当处理,达到统计显著性的效应的存在只是一个真正的效应存在的证据。然而,最常见的分析ERP数据的方法并没有充分解决这个问题。这个问题已经由Luck等(2017)讨论过。
1.2.1 传统的ERP分析方法:时空平均
处理ERP研究中收集的大量数据最常见的方法是在统计分析之前通过时空平均来减少数据。在时域中,可以通过计算一个特定时间窗口的最大值或最小值(峰值振幅)或平均值(平均振幅)来测量效应。在空间领域,可以通过选择一个有代表性的电极或通过在一个电极子集中平均来减少数据,这些电极被选择来反映感兴趣的效应的典型空间分布。例如,ERP研究人员可以将N400成分操作为300 - 500 ms的平均振幅,平均振幅是中央顶叶电极空间区域(如Cz, CP1, CPz, CP2, Pz)的平均值。通过这种方法,第一类错误率可以通过完全消除研究人员的自由度来控制,即完全预先指定感兴趣的空间区域和时间窗口。特别是如果这些程序是预先注册的,我们可以确信报告的p值是准确的,测试的错误率是适当控制的(当然,假设测试的其他假设成立)。这种方法的问题在于它过于僵化,可以大幅度降低检测效应的效力:如果先验的选择一个时间窗口和空间区域,但与感兴趣效应并不一致,实验者将无法检测到一个真正的效应。重要的是,这种情况是常态:许多ERP效应在时间和头皮分布方面是可变的,因此在收集数据之前,如何选择时间窗口和空间区域并不总是很明显。例如,尽管加P300,但经典的P300更多地是由其形态、头皮后部分布和对特定实验操作的敏感性来定义的,而不是由其精确的时间来定义的。事实上,由于某些因素,P300效应可能会相差几百毫秒,而这些因素对特定的研究来说可能没有什么理论意义。其他成分如N400,可能有稳定的时间,但它们在头皮分布上可能会根据刺激的精确性质而变化。此外,即使使用相同的刺激,由于个体和种群之间的差异,无论是激活的精确神经解剖学来源,还是结构和功能神经解剖学,在效应的精确头皮分布方面的研究也可能存在差异,导致这些源在头皮表面的不同投影。因此,即使研究人员有一个动机良好、清晰、先验的假设,关于一个被充分研究的成分以及它的振幅将如何被调制,他可能无法提前知道最能表征该成分的确切时间窗口或空间感兴趣区域(ROI)。对于研究人员很少或没有先验预测的效应将显示在什么脑区和时间,平均振幅方法可能是如此局限,以致使有用的分析不可能。
许多研究者认识到这一问题,并采取了两种主要的方法来增加灵活性,同时仍然使用时空平均ERP数据作为因变量。然而,在我们接下来讨论的时候,这两种实践都重新引入了Type I错误的问题。
一些研究人员增加分析灵活性的第一种方法是根据数据的可视化选择分析参数。这仍然是相当普遍的做法,但正如Luck和Gaspelin(2017)广泛讨论的那样,它引入了严重的偏差。根据数据中观察到的差异选择时间窗口和空间ROI,本质上相当于在许多不同的时间窗口和区域进行分析,并报告产生最大效应的那个。在这种框架下,第一类错误率的多重比较问题和膨胀应该是显而易见的。因为所有这些可能的分析实际上都没有进行,所以这通常被称为隐性多重比较问题(Luck & Gaspelin, 2017;参见Gelman & Loken, 2013),许多研究人员似乎没有意识到这可以在多大程度上膨胀I型错误率,并削弱对重要结果的信心。
研究人员试图增加分析灵活性的第二种方法在本质上更有原则:将空间区域和时间窗口作为统计模型中的附加因素。例如,电极可以被分成不同的空间区域,并使用半球因子和前后脑区因子进行重复测量方差分析(ANOVA)。然后就有可能检查感兴趣的实验条件的主效应以及这些效应与空间因素的相互作用。这种方法的优点是无需预先选择空间区域。然而,在我们接下来讨论的时候,这种方法引入了一个新的多重比较问题。
为了理解如何在这种类型的方差分析中解释与空间因素的交互作用,了解ERP的生物物理基础是很重要的。产生ERPs的突触后电位产生电偶极子;也就是说,它们在大脑皮层某一特定区域的一侧产生一个正电压,在另一侧产生相应的负电压。头皮上的电极蒙太奇大约只覆盖了整个球体的一半。因此,如果偶极子垂直定位,则只记录一侧,头皮上的所有电极或大部分电极将记录同一方向的电压。如果偶极子是水平方向的,则两端都将被记录下来,一个分量将在某些位置出现正偏转,而在另一些位置出现负偏转。无论哪种情况,每个神经源都将以不同的权重投射到不同的电极上。因此,所有的效应(包括由单个偶极子组成的效应和由多个加性偶极子组成的效应)都应该产生实验条件与电极之间的相互作用。此外,由于偶极子的正极和负极永远不会在记录的电极上完美地相互抵消,所有的效应也将产生一个主效应。是否检测到主效应和相互作用效应(达到统计显著性)仅仅是偶极子取向和强度的结合。因此,在方差分析模型中包含一个空间因素使每个效应有两个独立的达到显著性的机会如果包含多个空间因素,问题将呈指数级增长(例如,有两个空间因素时,每个效应都有4次机会达到显著性)。这导致了第一类错误率的显著膨胀。
尽管不太常见,一些研究人员试图增加时间域分析的灵活性,通过测量多个时间窗口,并在单个重复测量方差分析中包括时间窗口作为一个因素。这引发了类似的多重比较问题。此外,当影响只存在于一个或几个多个测试时间窗口时,这种方法很可能具有低效力。
综上所述,我们在分析ERP数据时面临着一个两难的问题。为了始终有高效力检测跨空间和时间的影响,我们需要灵活的分析方法。
然而,ERP研究中最常见的方法在不增加I型错误率的情况下不允许太多的灵活性。因此,在ERP分析中选择时间窗口和空间区域时,如果你做了或不做,都是非常糟糕的。在传统的时空平均方法中,已经提出了几种方法来解决这一难题。
1.3 ERP数据的单变量统计
处理ERP数据中隐含的多重比较问题的另一种方法是将其清晰化,而不是时空平均,我们可以在多个时间点和电极单独计算一个单独的统计检验。然后,我们应用多重比较矫正来控制在这些许多独立测试中的family-wise I型错误率。由于该方法通过进行许多单变量分析来处理大量因变量,因此被称为mass单变量方法。
使单变量方法可行的关键是采用提供足够效力的多重比较矫正。因此,通常使用专门的矫正。在脑电图研究中,通常有两种主要的矫正方法。第一种方法是利用概率论来控制一系列比较中的错误发现率(FDR)(即跨电极和时间点)。根据不同的假设,人们提出了不同的FDR矫正公式。我们在目前的工作中探讨了三种方法:Benjamini和Hochberg(1995)程序,它假设一系列检验的结果是独立的或正相关的;Benjamini、Krieger和Yekutieli(2006)程序,该程序也假定测试是独立的或正相关的,但当测试中存在较低比例的真实效应时,其目的是提供更好的效力;以及Benjamini和Yekutieli(2001)程序,该程序控制了不考虑相关性的错误发现率。
第二类单变量矫正使用重采样程序来估计专业统计量的零分布,以控制family-wise的错误率。这些方法在本质上是非参数的,因此需要比参数检验更少的关于数据分布的假设(FDR也可以用于非参数检验,但通常用于参数分析)。目前,EEG研究中最受关注的是两种方法。第一种方法使用置换方法来估计在时间点和电极上的零分布的最大效应(例如,最大t或F值)(tmax或Fmax;Blair & Karniski, 1993)。第二种方法使用置换方法来估计聚类(cluster,表示一些聚集的临近的时间点或电极点)统计量的零分布(即,表示相邻时间点和电极的聚类大小的统计量,其效应大于某些预先指定的阈值)。这些基于置换的方法的另一种重采样方法是使用自举法(bootstrapping)来估计相同或类似统计量的零分布。
对于认知神经科学家来说,大量的单变量方法当然不是新的或新奇的。事实上,它们是功能磁共振成像研究标准分析方法的核心。它们也常用于脑电图的频域分析。然而,在标准的认知ERP研究中,目前使用的大规模单变量分析远少于上述传统的时空平均方法。
一个可能的原因是历史原因。ERP分析的标准和通用做法是在只选几个常用电极,这是当计算能力使复杂的多维分析方法变得困难或不可能的时候制定的,而且在今天使用的许多专门的多重比较矫正方法尚未开发出来的时候制定的。因此,ERP研究人员习惯于在统计分析之前减少大量数据的测量方法(如上所述,这也使得多重比较问题不那么明显)。相比之下,早期的功能磁共振成像研究通常是在多个体素中搜索效应会出现在哪里,这使得多重比较问题更加明显。此外,标准的fMRI分析方法是在计算能力和大数据集的多次比较矫正得到设计后发展起来的。结果是,尽管在分析fMRI和ERP数据时面临着共同的统计挑战,但非常不同的做法成为了标准。
然而,除了传统和惯性之外,还有其他原因导致大量单变量方法在ERP研究中不常见。我们可以确定它们被广泛采用的两个主要障碍。
首先,目前广泛使用的软件实现了ERP数据的大规模单变量方法,但只支持单因素设计,或可简化为单因素的设计。原因是,在ERP研究中最流行的基于置换的矫正对于因子设计来说并不简单。基于置换检验的因子方差分析的问题是,当不能假定零假设对设计中的其他效应也是正确的情况下,在零假设下,对于特定的效应,确定哪些观察值是可交换的(因此是不可置换的)。结果是,对于因子设计中的某些效应(特别是交互效应),随着样本量的增加,只有可能构建一个近似检验来控制I型错误率。由于研究人员通常对因子设计中的交互作用效应感兴趣,只有在能够处理这些效应的情况下,大量单变量统计才有可能广泛使用。
第二,也许是更重要的原因,为什么大规模单变量方法尚未在ERP研究中广泛采用,是因为它们通常被认为主要适合探索性分析。我们交谈过的许多研究人员认为,大规模的单变量方法牺牲了灵活性,它们应该用在研究人员对感兴趣的效应的空间和时间特征知之甚少的情况下。的确,关于大量单变量方法的现有工作通常主要在这一背景下讨论它们。这是可以理解的:多次比较矫正通常会降低效力,而且在大多数情况下,多次比较问题越大,效力降低就越大。然而,在我们接下来讨论的时候,与传统的平均振幅方法相比,单变量方法的效力还没有被系统地探索。
1.4 目前的工作:模拟I型错误率和单变量方法的效力
本文其余部分的目标是直接解决在ERP研究中使用大量单变量统计的这两个障碍,更一般地说,解决如何最好地平衡ERP分析中对灵活性、效力和第一类错误控制的需求的挑战。
为了解决第一个障碍,第一作者开发并发布了Factorial Mass Univariate Toolbox (FMUT;Fields, 2017b),它建立在并扩展了由David Groppe开发的现有Mass Univariate Toolbox (Groppe et al.,2011a)。这个免费和开源的MATLAB工具箱实现了因子方差分析的大量单变量方法,它扩展了进行大量单变量统计的效力,在ERP研究中使用的实验设计范围更广。在这里,我们使用FMUT进行一系列模拟研究,明确地解决第一类错误(基于置换的方法)和效力问题。我们要解决两个关键问题。
首先,我们用因子设计评估基于置换的大量单变量方法的I型错误率。具体地说,我们问的是,基于近似置换的方法与一些因子方差分析设计是否能够适当地控制I型错误率与现实的ERP数据和在大规模单变量统计中常用的多重比较矫正。在这些情况下,有各种方法来构造近似检验。之前在其他领域的模拟工作表明,计算和置换残差通常是首选的方法,因为即使在小样本中,它也能很好地控制I型错误率。然而,重要的是要确定这些结果是否适用于ERP数据,以便研究人员在将基于置换的大量单变量统计应用于ERP研究中广泛使用的实验设计(即包含多个因素的设计)时能够自信。
其次,利用真实的EEG噪声和ERP效应,我们探讨了与传统的平均振幅分析相比,单变量方法的威力。在这里,我们考虑了基于置换的方法(Fmax和基于聚类的矫正)以及上述三种不同的FDR矫正。重要的是,我们不是简单地将传统方法与完全探索的大规模单变量方法进行比较,而是在与感兴趣的效应相对应的时间窗口和空间区域的不同特异性程度下,检验每种方法的相对效力。这使我们能够直接对比平均振幅方法和各种单变量方法的效力,当关于特定ERP效应的时间和头皮位置的强大的先验假设是可用的,并在这些假设是宽松时检查这些方法的相对效力。
2 方法
2.1 EEG噪音提取
在Groppe、Urbach和Kutas (2011b)之后,我们使用真实脑电图数据的单试次水平的噪声进行了所有的模拟研究。为了获得脑电图噪声,我们使用了我们实验室收集的49名完成AX-CPT任务(一种认知控制过程的测量)的受试者的已有脑电图数据。在这个任务中,参与者看到一系列字母,当他们看到字母X前面有字母A时,就按下按钮。我们使用这个数据集,只是因为它包含了相对大量的受试者和每个受试者的大量试次。这使得我们能够通过从受试者和试次中随机取样来模拟研究,具体如下。
简单来说,采用32导biosemi电极帽,低通在线102.4Hz,采样率512Hz,离线重参考为双侧乳突平均,高通0.05Hz,分段-200ms--1100ms,带有伪影(眨眼、眼球运动、坏通道等)的试次使用ERPLAB中的算法进行检测,并将其丢弃。这样,49名受试者中每个人平均有659个试次(范围:516到771)。然后30Hz低通滤波和下采样到128Hz。
我们利用这些试次提取脑电信号背景噪声的分段,如下所示。在每个参与者的32个电极点的每个分段中,从原始脑电图中减去该试次的平均波形(即ERP)。例如,对于AX条件,减去所有AX试次的平均波形。这消除了事件相关活动,留下了个体试次水平的脑电图背景噪声。这些噪声试次在条件和参与者内部和跨条件的所有试次中相加并平均为零(即,条件或被试没有整体影响)。
以这种方式使用实际脑电图数据的优势在于,它能反映电极、时间点、试次和受试者之间真实的可变性。由于脑电图研究中的变异性来源多种多样,这种变异性的全部复杂性将难以模拟。这包括在认知和解剖学上稳定的个体差异,由于一天中的时间或困倦造成的认知状态的差异,参与者之间设备设置的差异(例如,帽子的位置),整个研究的疲劳效应,不同的波形结构在早、晚时间窗的变异性,以及许多其他因素。具有现实的可变性是重要的,因为它影响各种单变量方法的效力,也因为一些方法,如Benjamini和Hochberg(1995)和Benjamini等人(2006)FDR矫正,依赖于关于不同时间点和电极之间的相关性的假设。因此,违反这些假设的影响反映在我们的模拟结果中。
2.2 因子方差分析设计所需的近似置换检验的I型错误率模拟
如引言中所述的那样,通过计算和置换残差,可以为因子设计构造近似置换检验,随着样本量的增加,这种检验逐渐控制I型错误率。我们的第一个目标是使用这些方法来模拟在3*3重复测量方差分析中交互作用的I型错误率。我们使用了两种基于置换的单变量矫正来解释多重比较:F max和聚类程序。我们的问题是,对于真实的脑电图数据,这些方法是否能将I型错误率维持在可接受的水平。
对于每个测试,我们模拟了10,000个实验。为了模拟每个实验,我们随机抽取了参与者的子集和他们噪音试次的子集(计算如上所述)。我们改变了参与者的数量(40、25、16、12、8)和试验次的数量(每个条件的40、20、10),以检验这些参数对I型错误率的影响。在每个受试者中,我们随机将噪声试次(即每个试次的所有电极*时间点矩阵)分配到9个任意条件中。这创造了一种情况,在不同的受试者、时间点和电极之间,脑电图信号的变异分布和结构是真实的,但在9种情况下,ERP没有真正的差异。也就是说,我们知道在被试和试次样本的总体中原假设是正确的,但通过随机抽样,我们期望会出现与实际ERP实验相一致的非零差异。相关的问题是,这种随机抽样误差产生显著效应的频率是多少。
对于每个模拟实验,我们进行了3*3置换方差分析,在每个采样点的32个电极上,通过残差置换法检验交互作用效应。由于变异可能在ERP的早期和后期部分有所不同(例如,缓慢漂移对晚期时间点的影响大于对早期时间点的影响),我们分别检查了早期时间窗0-300 ms和晚期时间窗300-1000 ms。
我们首先用Fmax矫正对第一类错误率的多次比较。对于每个模拟实验,我们对数据进行了5000次随机置换,并确定了每个置换在所有时间点和电极上的最大F值。这5000个Fmax值形成了零分布,在未置换的数据中,任何时间点和电极的F值大于零分布就被认为是显著的大于95%。我们将第一类错误率计算为至少一个时间点/电极点达到显著性的10000个模拟研究的百分比。
然后,我们使用聚类矫正进行多次比较,模拟I型错误率。聚类被定义为相邻的时间点和电极,其F值在两个alpha水平中的一个具有统计学意义(见下文)。为了聚类,电极之间的距离约为7.5厘米(假设头部直径为56厘米)被认为是相邻的;相邻的时间点是任何连续的样本。聚类统计量被定义为一个聚类中所有F值的总和,该统计量的零分布是通过在每个模拟实验的5000个随机数据置换中确定最大的聚类来估计的。我们计算了I型错误率作为所有模拟研究的百分比,揭示了至少一个显著的聚类。
2.3 对真实ERP效应的效力的模拟
我们的第二个目标是模拟研究,以检验不同的单变量方法的效力:两种基于置换的方法,Fmax检验和聚类检验,以及三种不同版本的FDR矫正。我们将这些单变量方法与传统的平均振幅分析方法进行了比较。
2.3.1 构建模拟实验
根据上述程序模拟了第一类错误率测试的实验,有以下差异:(a)模拟条件的数量因所测试的效应而不同;(b)由于我们的目标是比较不同方法的相对效力,所有模拟均采用24名受试者,每个条件20个试次,以简化模拟和结果;(c)随机采样噪声并取平均后,在数据中加入真实的ERP效应。
2.3.2 模拟效应
我们检验了三种ERP效应:N400、P300和模拟的早期P1。选择前两个是因为它们被广泛研究,许多研究者都熟悉的众所周知的ERP成分。P1被用于检测空间和时间局部效应的效力。图1显示了这三种效应。
为了模拟语义预期对N400的既定影响,我们使用7.5 Hz低通滤波的两种情况下的大平均波形,这些波形来自于一个子集的受试者(n = 24),他们参加了Kuperberg、Brothers和Wlotko(2019)进行的一项实验:高约束性句子语境中的高期望的关键词(高完形可能性)和非约束性语境中的意外(低完形,但合理)关键词。该效应在中央顶区分布,在430 ms左右达到峰值。为了模拟的目的,在所有电极,刺激前200毫秒和之后700毫秒的所有时间点被设置为两种情况的平均值(即无效假设成立)。
图1 统计效力模拟中的真实ERP效应
我们也模拟了P300,如图1所示,该效应在620 ms左右达到峰值,并在中心顶部分布。
Groppe等人(2011b)先前的模拟工作表明,不同的单变量方法的相对效力取决于所测试的效应的性质。N400和P300在时空上分布广泛,时空特征普遍相似。我们无法获得与噪声数据相匹配的更集中的效应(即,使用相同的电极阵列和设备收集的数据),所以我们模拟了一个局部的P1-like的效应。这种效应由一个二次抛物线组成,持续7个采样点(在128Hz采样率下约为50毫秒),并在峰值4uV处。在CPz处98 ms开始添加该效应,并在CPz周围的四个电极上添加该效应的一半振幅:Cz、CP1、CP2和Pz(这使得空间分布与这里检查的其他效应相似)。换句话说,这种影响是短暂的,峰值明显,并且非常集中在头皮上(见图1)。
2.3.3 统计计算
为了检验传统平均振幅方法的有效性,分析中包括的所有时间点和电极的平均振幅(见下文)被提交给每个模拟实验的重复测量方差分析。效力(power)定义为影响达到显著性阈值0.05的10,000个模拟实验的比例。
为了检验每个单变量方法的有效性,在分析中包括的每个电极和时间点进行了单独的重复测量方差分析,并应用了相关矫正。虽然0.05在大多数工作中被使用,但我们怀疑更严格的纳入标准会放大峰值处的大的效应量的影响,这可能会使聚类方法对局部效应更敏感,就像模拟的P1。最后,我们计算了Benjamini和Hochberg(1995)、Benjamini和Yekutieli(2001)以及Benjamini et al.(2006)所描述的三个FDR矫正。对于这些方法中的每一种,我们计算的效力是10,000个模拟实验的百分比,其中任何时间点-电极组合(或任何聚类)在矫正的p<=0.05水平上就都是显著的。
2.3.4 在不同的时空位置先验假设下,评估不同方法检测效应的效力
我们的关键问题是关于family-wise的效力:在所有模拟研究中,至少有一个时间点(正确地)被确定为显著的比例。换句话说,假设存在一种效应,每种方法检测到它的可能性有多大?
我们首先在先验时间窗和空间ROI中检验了family-wise的效力,这些空间ROI与我们知道的实际效应位置匹配得很好。这些模拟代表了使用平均振幅分析时通常采用的方法。然后,我们逐步放宽这些时间和空间假设,以检验增加分析灵活性对每种方法效力的影响。这让我们提出了两个关键问题。首先,当效应的时间和空间分布先验已知时,传统方法与单变量方法相比的效力如何?第二,如果放宽这些假设,以反映效应发生的时间或地点的不确定性,会损失多少效力?这与之前的模拟工作形成了对比,之前的模拟工作检验了单变量方法对不太现实的ERP效应的作用,并且只是作为一种纯粹的探索性方法。
2.3.5 使用单变量方法来检测效应的时间过程
ERP研究中的标准时空平均分析方法旨在回答条件之间是否存在差异的问题,但它们通常不适合准确地告诉我们何时何地存在影响。也就是说,如果我们分析N400平均振幅从300-500 ms,我们找到一个显著的效应,这并没有告诉我们该效应在300 - 500毫秒之间的所有时间点上都存在,也没有告诉我们该效应是否超出了这个预先指定的时间窗口(即窗口外是否也有显著的)。如上所述,我们分析单变量检验的主要目标是确定它们回答同样问题的效力:在给定的时间窗口中是否存在任何显著差异。因此,效力被定义为任何时间点达到显著性(family-wise效力)的研究的百分比。
与平均振幅方法不同,单变量方法也给我们一些关于效应的时间范围的明确信息,因为我们可以看到在单变量分析中哪个单独的时间点达到显著性。尽管大多数单变量方法不能保证对单个时间点是准确的(参见讨论),但我们通过从我们的模拟中计算以下三个测量来检验这些方法对效应的时间过程的特征:
元素-wise的效力:对于每个至少显示了一个显著时间点的研究,真正有效应的时间点占多大比例呢?换句话说,如果一个人使用一个给定的矫正发现了一个显著的效应,那么该矫正揭示的时间过程在多大程度上可能捕捉到真实效应的全部程度?
Family-wise FDR:在所有显示至少一个显著时间点的研究中,有多大比例的研究包含至少一个假阳性?换句话说,如果一个人使用一个给定的矫正发现了一个显著的效应,那么揭示的一些时间点实际上是假阳性的可能性是多少。
元素-wise FDR:对于每个至少显示一个显著时间点的研究,显著的时间点实际上有多大比例是假阳性?换句话说,如果一个人使用一个给定的矫正发现了一个显著的效应,那么揭示的大多数时间点是否反映了真实的效应,还是可能存在很大比例的假阳性。
3结果
3.1 近似置换检验的第一类错误率的模拟
我们的第一个目标是在3*3重复测量方差分析中模拟2因素交互效应的I型错误率,使用基于置换的Fmax测试和聚类矫正。对于每个模拟实验,我们计算第一类错误率为任意时间点-电极达到显著性p=0.05时模拟实验的百分比。
结果如图2所示。可以看出,构造近置换检验的残差置换法只导致了最小膨胀的I型错误率。在所有的仿真中,基于聚类的方法比F max方法更能保持I型错误率。正如预期的那样,第一类错误率随着样本量的减少而增加。然而,即使是模拟只有8个被试和每个条件10个试次,这对大多数ERP研究来说都是相当极端的,Fmax方法的I型错误率只有0.077,聚类测试的I型错误率只有0.068。对于大多数模拟,错误率更接近名义上的α值。
图2:近似置换检验的第一类错误率。柱状图显示了残差置换法的第一类错误率,对不同数量的受试者和试次数进行了3*3方差分析交互作用。对平均振幅(跨时间点和电极的平均)的方差分析的I型错误率供参考。误差柱状图显示了该比例的95%置信区间。
3.2 检测真实ERP效应的效力的模拟
我们的第二个目标是检验不同的单变量矫正方法的相对效力:Fmax和聚类矫正的置换方法和三个版本的FDR矫正。
3.2.1 N400
在不同的先验时空位置假设下检测N400调制的效力。
我们首先在一个受限的先验时空ROI中检验了N400效应,该ROI通常与N400成分相关,并与我们模拟的研究中实际观察到的效应相对应:时间300-500ms,位置Cz, CP1, CPz, CP2, Pz。如图3所示,Fmax和聚类测试的效力略好于均值振幅方法。在所有方法中,基于FDR的测试效力最差,尤其是更为保守的Benjamini和Yekutieli(2001)方法。
图3 Family-wise效力。标绘的是在所有模拟研究中,至少有一个时间点被正确识别为显示出效应的比例。误差柱状图显示了该比例的95%置信区间。
接下来,我们用限制较少的时空ROI进行了模拟:所有电极位点在200 - 600毫秒的时间窗口内。正如预期的那样,在更大的空间和时间区域进行平均大大降低了平均振幅方法的效力。相比之下,聚类方法显示出与限制性更强的分析中大致相同的效力。其他单变量方法显示出适度降低的效力,但所有这些方法(除了Benjamini和Yekutieli, 2001, FDR矫正)显示出比平均振幅方法更大的效力。最后,我们进行了一个完全自下而上的探索方法,检查了所有电极位置的所有时间。在这个模拟中,单变量方法,特别是聚类测试只显示适度的效力降低。
使用单变量方法检测N400的时间过程
上面,我们考虑了单变量方法的效力,以检测是否有任何效应存在于预先指定的时间窗口。正如方法部分所指出的,这是时空平均分析方法所回答的问题。
与这些传统方法不同的是,单变量分析还允许我们检查每个单独时间点的排斥率,允许我们确定每个矫正方法如何准确地描述模拟效应的时间过程。为了解决这个问题,我们专注于所有电极位点的0-1000 ms分析。这是因为在300 ~ 500 ms之间进行的分析只包含了具有真实效应的时间点,因此在这些分析中不可能出现假阳性时间点。
元素-wise效力。如图4所示,所有单变量方法都倾向于低估效应的真实持续时间,通常报告的在整段时间中具有真实效应的时间点不到一半。在这方面,阈值为0.05的聚类测试通常表现出最好的性能。Fmax、Benjamini和Yekutieli (2001) FDR方法表现最差,特别是低估了真实效应的持续时间。
图4 元素-wise 效力。元素效力定义为具有显著效应的真实时间点的比例。图表显示了该比例在所有模拟研究的子集中的分布,其中至少有一个时间点是显著的。
图5 family-wise错误发现率(FDR)。在所有具有显著效应的研究中,有多少包含至少一个假阳性时间点?误差柱状图显示了该比例的95%置信区间。NA表明这些分析不可能出现假阳性,因为所有检测的时间点都包含真实的效应。
图6 元素-wise错误发现率(FDR)。元素的FDR定义为假阳性的显著时间点的比例。图中显示了该比例在所有模拟研究中的分布,其中至少有一个时间点是显著的。
Family‐wise和element‐wise FDR。如图5所示,考虑到显著的整体效应,大多数方法,包括0.01阈值聚类测试,在少于7%的模拟研究(Family-wise FDR)中显示假阳性时间点。然而,Benjamini and Hochberg(1995)和Benjamini et al. (2006) FDR方法更有可能包括假阳性时间点(超过35%的研究),0.05阈值聚类测试包括17%的假阳性时间点。
如图6所示,在大多数方法的95%以上的研究中,给定显著的总体效应,少于10%的显著时间点是假阳性(元素的FDR)。然而,再次,Benjamini和Hochberg(1995)和Benjamini等人(2006)FDR方法,以及0.05阈值聚类检验的表现不太好,显著时间点中假阳性的百分比相对较高(>20%)。
3.2.2 P300
检测P300调制在不同的先验假设下其时空位置的效力
我们首先分析了500 ~ 750 ms间的P300效应,使用5个中央顶叶电极(Cz, CP1, CPz, CP2, Pz)的空间ROI。这代表了一种与真实时空分布的效应相匹配的先验预测。和N400一样,聚类测试的效力略大于等效的Fmax测试或均值振幅测试。FDR的效力最小。
当时间窗长度增加一倍(400-900 ms)且所有电极都包含在内时,与预期的单变量测试相比,平均振幅测试的效力下降幅度更大。最后,在完全的自下而上的对所有电极和整个分段进行检验,单变量方法显示了与更严格的时间窗相比有中等程度的效力降低。
P300的时间过程的单变量方法
元素-wise效力
就像N400一样,所有的方法都倾向于严重低估其效应的真实程度。0.05阈值聚类测试表现最好,只有那些噪声导致效应大小高估的研究(在ERP分析中可以包括持续时间)才能达到显著性。这种趋势在0.05阈值聚类测试、Benjamini and Hochberg(1995)和Benjamini et al. (2006) FDR程序中尤其明显(>30%)。所有其他方法包括的假阳性的研究少于20%。在大多数模拟研究中,假阳性的显著时间点的比例小于10%,但在所有方法的模拟研究中超过5%包含了大多数的显著时间点(图6)。
3.2.3 模拟P1
在不同的时空位置先验假设下检测P1调制的效力
对于模拟的局部P1类成分,即使具有围绕效应的真实位置很强的先验方法,所有单变量方法都显示出比平均振幅测试更好的效果(图3)。然而,当假设放松时,聚类测试显示出非常差的效果。FDR方法和Fmax在更宽的时间窗和所有电极检测时都能保持合理的效力,特别是Fmax在没有时间或空间限制的情况下,显示出检测这种局部效应的强大能力。
元素-wise效力。在大多数模拟研究中,所有方法显示的时间点都不到20%。只有聚类测试在5%的模拟研究中显示了超过一半的效应,但这是以非常不稳定的时间进程估计和非常高的FDR为代价的(下一节)。
Family-wise和元素-wise的FDR。在大多数模拟研究中,聚类测试包括假阳性时间点(图5),在大多数情况下,大多数显著时间点都是假阳性(图6)。这并不奇怪:因为在这些分析中,效力与第一类错误率本质上是无法区分的,一小部分显著的结果主要代表了随机噪声,而不是由当前的真实效应驱动的。所有其他的方法,虽然通常低估了效应的持续时间,但错误率很低:它们包括了少于7%的假阳性时间(图5)。对于除聚类检验以外的所有方法,在大多数模拟研究中,假阳性的显著时间点的比例非常低,但除了Benjamini和Yekutieli (2001) FDR矫正外,所有方法的显著时间点的比例最高可达一半。
4讨论
ERP研究中产生的大量数据对统计分析提出了挑战。一方面,能够以高时间精度检测神经活动,并能够根据头皮分布的差异区分不同的神经认知过程,是脑电图揭示大脑如何工作的关键。另一方面,这种复杂的数据为从噪声中产生效应提供了多种机会。我们需要一种统计方法,能够灵活可靠地在时间和空间上检测存在的效应,同时适当地控制第一类错误率。传统方法要求我们预先指定固定的空间和时间分析参数,这可能会控制第一类错误率,但它们不能给我们提供检测真实效应所需的灵活性和效力。重要的是,正如引言中所讨论的,这直接导致了错误发现率,从而导致重复研究结果的失败。
单变量方法为统计分析提供了另一种方法,已经存在了十多年。然而,它们尚未被广泛应用于ERP分析,这是因为基于置换的矫正方法尚未被广泛用于复杂的因子设计,也因为单变量方法通常被认为是牺牲了效力,仅适用于探索性分析情况。在这里,我们表明,这两个问题都不应该成为广泛采用单变量统计的障碍。首先,我们证明基于置换的测试可以适当地控制脑电图数据的I型错误率,即使是在不可能进行精确置换测试的设计中。其次,我们表明,当与先验的时空ROI结合使用时,单变量方法实际上可以提供比传统的平均振幅方法更好的效力,表明这些方法在探索性分析之外具有优势。表1总结了各种单变量方法的缺点和优点。
表1 各种单变量方法的优劣总结
5 结论
总之,我们认为,更广泛地采用单变量分析可以在建立更可靠和可复制的ERP文献中发挥重要作用。我们的模拟表明,单变量方法适用于比一般假设的更广泛的研究和情况。我们的结果表明,ERP研究人员不必担心,他们必须关心效应将出现的确切位置和时间,以获得合理的效力:与广泛使用的平均振幅方法相比,单变量方法显示出同等或更好的效力。
单变量方法在认知神经科学中已经建立并普遍存在:它们是功能磁共振成像数据分析的默认方法,通常用于脑电图和脑磁图的时间-频率分析。在ERP研究中,我们没有理由不这样做。因此,我们在总结这篇文章时提出了一个大胆的建议:至少在使用试次平均ERP时,大多数ERP研究人员应该改变他们进行统计分析的方式。具体来说,目前的结果表明,在许多ERP研究中,单变量方法将既提供最佳的效力也会有好的I型错误控制。