摘要
传统的ERP的数据分析方法存在一些严重问题,例如时间窗口和感兴趣区域的随意选取,以及潜在的多成分的混合。时间主成分分析可以有助于解决这些问题,但是它在发展心理学应用中却有一些其他困难,比如年龄差异导致的成分结构差异(违背了测量一致性)。所以,本研究主张对群组运用单独的主成分分析法(Separate PCAs),可以重新缩放单独PCA的结果到原始单元,再进行推理统计。本文使用来自儿童和成人群体的真实数据演示了PCA在发展研究问题上如何应用,同时,还探讨了该方法的一些缺陷。
ERP在整个童年时期经历了相当大的发育变化;例如,新生儿、学步儿童、儿童和成人的ERP对听觉刺激的振幅、极性、潜伏期和地形上存在显著差异。又由于传统ERP分析的方法对振幅、极性和潜伏期有测量偏差,所以研究人员更多使用多元分解方法来从ERP信号中提取有效信息。多元分解方法的目的是将观察到的ERP数据描述为一组潜在信号的函数,并提供这些潜在信号的时间过程的客观特征。本研究关注时间主成分分析(PCA)属于一类基于统计特性分解数据的算法,如统计在采样点之间的电压协方差。PCA特别适合于对发育人群中的ERP的研究可以减少由于噪声水平的增强而导致的问题。
1. PCA-based ERP的优点
1.1 ERP和ERP成分
头皮测量到的ERP信号是脑内多个神经元突触后同时放电所产生的。由于多个源信号可以在同一时间点活跃,并可以投射到相同的电极位置,在头皮测量的信号存在相当大的时间和空间重叠。再加上脑电信号存在容积传导效应,导致空间信号衰弱,所以ERP的测量只能通过(在时间上控制一致的前提下)多次诱发事件后平均化计算,这就限制了ERP在空间和时间上的溯源分析。为了克服这个问题,ERP被进一步分解为相应成分,这些成分被认为是真正反映源信号的成分。ERP成分具有事件时间窗内固定的潜伏期、代表性的幅值以及溯源分析结果,能指示特定的认知功能,可以通过特定的实验操作而诱发。因此,ERP研究的目的就是分离出可解释的有效成分,但是通过平均化测量的ERPs重叠性太高,就容易导致结果偏差。图一展示了典型的EPP的重叠效应,如果仅基于电压峰值来确定成分,那么在Scenario B和C中就可能把两种成分误认为一种。
图一:演示三个简化ERP,分别存在轻度(A)和严重(B&C)时间重叠的潜在成分
第一排图是由两个成分合成的ERP在两个事件下的测量变化(绿色代表事件1,黑色代表事件2,红色实线代表两个成分),第二排图是模拟两组ERP在两个事件下的分别活动(组别1【虚线表示】在事件2下正向电位越大,组别2【实线表示】在事件2中负向电位越大,合成ERP用灰底线表示)。第三排图是利用时间PCA提取的两个因子展示图,两个因子的活动较好展示了两成分的变化。
1.2 时间主成分分析介绍
1.2.1 模型介绍
时间PCA仅根据反应参与者、电极和条件下相似/连贯的活动模式的采样点之间的统计关联来分解观察到的ERP,获得一系列可以被视为真正成分的潜在因子(规范起见,本文简称为因子)。PCA的数据格式构建如图二所示,因子得分描述了该因子对每次观察结果的电压的贡献(即活动水平)。用公式表示为:tij ≈ λj1⋅η1i λj2⋅η2i … λjm⋅ηmi,其中每个采样点的电压表示为tij,其中指标表示任何特定的观测i和任何特定的采样点j。因子负载λjk是权重,描述了一个特定因子对采样点j的电压的贡献程度。因子得分可以直接用于量化一个因子对观察到的ERP的贡献,可以进行统计测试,或者在不同的参与者之间进行平均,以计算每个电极和条件的“grand-average”因子得分,还能同ERP成分一样做地形图展示。为了保持因子载荷和因子得分的解释性,一些计算限制需要注意:1)大部分因子载荷应当为正数;2)因子载荷以原单位量级形式报告(uV);3)因子得分标准化但不做中心化;4)任一点电压值为0代表没有因子贡献。所以具有正/负载的采样点,正/负因子得分反映了特定参与者和条件下各自电极位置的正/负电压,因子得分为0表示一个因子对于某一观察是不活跃的。此外,因子负荷在参与者、电极和条件之间是恒定的,而因子得分可能会有所不同。这种假设在因子分析文献中通常被称为测量不变性,违反该假设可能会对时间PCA的性能产生严重的后果。所以,如果测量不变性不能满足时,就可以考虑采用单独的PCA的方法。
图二:PCA的数据算法演示
P=参与者,E=电极,特定采样点的t=对特定观察的电压,F=因子,λ=因子载荷(代表每个因子的活动的时间过程),η=因子得分(代表特定观察的每个因子的活动水平)。图中残差未展示,加载和分数只能近似地重建参与者的平均数据。
单独的PCA不能保证均值比较的意义,但是理论认为至少单独的PCA的部分因子是反映真实成分的,比如成年人和儿童都存在P2的成分,那么指示P2的因子就应该都出现在成年人和儿童的PCA结果中,然后两者才能比较P2成分。单独的PCA能反应不同的因子结构,但是对其解释需要谨慎,判断是源于组成成分差异还是正交旋转差异。
1.2.2 时间PCA如何统计分析
3个主要的指标需要评估,分别是因子个数、因子载荷以及因子分数。
因子数量与基本组成部分的数量相一致,因此每个因子都是对一个基本组成部分的估计。因子提取标准主要基于模型的拟合度,通常采用的并行分析的方法(即将每个因子解释的方差与来自一个不相关变量的模拟数据集的相应因子解释的方差进行比较)。但是,因子的数量太少,PCA就会合并成分形成单独因子;当提取的因子太多时,PCA则可以将每个成分正确地表示为一个因子。而并行分析往往提取更少的因子来避免共线性,但是脑电成分中共线性是比较高的,所以本文提倡使用 Empirical Kaiser Criterion perform better under these circumstances(EKC)作为提取因子数的标准。
因子载荷通常是由采样点的协方差矩阵来估计的,通过最小化模型隐含的协方差矩阵和数据集的观测协方差矩阵之间的差异来估计因子负荷、因差相关性和残差方差。从协方差计算公式Σ ≈ ΛΦΛ‘可知,该矩阵是因子载荷和因子间相关性构成的,也就是相邻采样点之间的相关性越高,它们越可能来自于同一个因子。此外,使用非标准化协方差矩阵,则所有采样点为同一有意义的单位(即微伏)。PCA模型的一个重要性质是其旋转不确定性。任何特定的ERP都可以通过无限的、一组不同的因子负荷和因子分数来重建,但是也可以添加规则来限制(比如,基于方差解释性排序不相关因子)。对模型进行旋转后可以减少载荷数,并且降低载荷间的共线程度。ERP研究中一种简单结构旋转方法实现该作用。除此外,也可以目的性选取结构因子或者在简单结构中应用特定的旋转标准。
因子分数利用因子载荷值使用回归方法计算,公式为η=T S−1ΛΦ(T为原始数据矩阵,S为采样点的观测协方差矩阵,Λ和Φ分别为因子加载矩阵和因子相关矩阵,由因子负荷估计后产生。因子得分提供了每个观察中因素活动的汇总统计数据(即,每个电极、条件和参与者)。简单来说,因子分数可以被想象为横跨整个时期的电压的加权平均值,其中最高的权重赋予具有高因子负荷的采样点。
1.2.3 因子水平重建ERP
非标准化因子负荷(最左边的面板)代表因子活动的时间过程,并在所有参与者、电极和条件中固定。因子得分(中间面板)因参与者、电极和条件而不同,代表了因子对参与者、电极和条件的特定组合的电压的贡献。该因子得分可以用来分析条件效应。通过将因子负荷和因子分数相乘,可以按因子计算的方式重建原始数据,估计出基础成分。
图三 情况C中观察到的ERP的因子重建
2. ERP数据集的逐步分析步骤
利用Oddball任务的ERP数据集:一个儿童组(N=32,7-10岁)和一个成人组(N=32,18-36岁)。本研究关注新奇刺激的早期P3a成分。图四描述了两组中所有参与者的总体平均值。
图四 两组被试在标准刺激和新奇刺激下的ERP总体平均值
本文提供所有代码和数据集 (https://github.com/FlorianScharf/ PCA_Tutorial/),流程操作如表一。
表一:时间PCA分析流程、结果输出和解释
3. 发展心理学研究中需要注意的问题
1)如何检测和处理次优的PCA结果
PCA模型结果的可视化检查是判断PCA模型结果是否“合理”的至关手段。次优解最可能是因子的不足或过度提取导致,或者旋转方法不能解开高度重叠的因子。解决办法(1)尝试增加旋转算法的随机启动和迭代次数,以防次优解是由于旋转准则的局部最优。(2)增加因素的数量对比是否会提高模型结果。(3)调整旋转算法。(4)理论上,当时间重叠较低且成分结构的先验知识非常精确时,也可以使用基于峰值的度量方法。
2)如何才能避免“Double Dipping”问题
基于数据驱动模型构建数据,再去进行统计分析本来是有争论的,会增大I类误差。比如基于模型后结果返回去确定因子个数或改变旋转方式。避免这种情况的一个简单而有效的策略是严格分离模型规范步骤与统计推断步骤,并对此进行预注册和公开化发布。
3)对测量不变性的进一步考虑
当测量不变性有问题时,建议使用单独的PCA。具体来说,研究人员应该对不同年龄组进行单独的PCA,因为不同年龄组之间确实存在不同的成分结构。另外,考虑到实验条件的差异,单独的PCA也是优选。PCA可以用在检查意外的潜伏期变化或存在非常强的潜伏期变动的情况中,但也可能不是一个合适的分析模型。如果测量一致性很差,那就不建议用量化分析,选择做质性比较。
4)纵向研究
在纵向设计的背景下,两个具体的问题:首先,研究人员应该反思跨测量场合的测量不变性的合理性;其次,需要考虑到来自同一参与者的测量场合之间的依赖关系。当假设测量不变性成立时,研究人员可以在所有测量场合进行组合主成分分析。此外,纵向分析方法如潜在增长模型也可以应用于ERP数据。
5)潜伏期效应分析
在组合主成分分析中,由于严格的测量不变性假设,潜伏期差异大多被忽视,但极端的潜伏期差异可能导致分裂因子。尽管本文提出了一些克服的办法,但依旧不能完全处理潜伏期变化的效应。
4. 对比其他方法
方差错误分配(variance misallocation)代表了基于PCA的条件效应估计可能有偏差,这是由于旋转后的因子与真实因子之间的部分不匹配。此外,当真实因子具有高时空重叠特征时,特别是在有慢波成分存在的情况下,简单的结构旋转可以确定但不能完美地分离因子,会将慢波成分与其他成分合并,所以研究者提出了ERP特定的旋转估计算法,但这些方法的应用还缺少实例。尽管PCA的应用需要测量一致性的假设以及选择参数的限制,但是相比ERP原始分析方法对测量一致性的要求更放松一些,而且更能解决时空重叠信号的问题。
与时间PCA中的采样点不同,电极位置可以作为空间PCA中的变量来处理。空间PCA假设参与者、时间点和条件之间的地形权重相等,但允许时间过程的变化。但是,地形的测量不变性是在许多情况下是不可能的(不同人头型不同),所以需要使用特殊的旋转技术,通常这些旋转技术(例如,Infomax)是与独立成分分析(ICA)密切相关的。当然,这两种PCA方式也可以结合使用。
5. 总结
长期以来,基于峰值方法的ERP研究局限性已经被承认。而对主成分分析方法的基本理解对ERP研究人员越来越重要,它也有助于发展心心理学在认知神经科学领域未来的研究。
参考文献:A tutorial on the use of temporal principal component analysis in developmental ERP research – Opportunities and challenges