HAPPE+ER软件：标准化事件相关电位ERP的预处理的pipeline

摘要

事件相关电位（ERP）设计是一种用脑电图（EEG）评估神经认知功能的常用方法。然而，传统的ERP数据预处理方法是手动、主观、耗时的过程，许多自动化处理方法也很少有针对ERP分析有优化（特别是在发展或临床人群中）。本文提出并验证了HAPPE 事件相关（HAPPE ER）软件，标准化和自动化预处理过程，且优化了整个生命周期的ERP分析。HAPPE ER通过预处理和事件相关电位数据的统计分析来处理原始数据。HAPPE ER还包括数据质量和处理质量指标的事后报告，标准化对数据处理的评估和报告。最后，HAPPE ER包括后处理脚本，以方便验证HAPPE ER的性能或与其他预处理方法的性能进行比较。本文用模拟和真实的ERP数据介绍了多种方法，HAPPE ER软件可在https://www.gnu.org/licenses/#GPL的GNU通用公共许可证条款下免费获得。

1. 介绍

传统的脑电图/ERP数据分析方法是通过主观手工编辑去除含有伪迹的片段，这可能导致重要数据丢失，特别是来自具有高水平伪迹特征的发育和临床人群的数据。现有软件通常局限于脑电图预处理的单个阶段，如线噪声去除或自动ICA成分拒绝，ADJUST；或仅在少伪迹数据上开发，缺乏嵌入式指标来定量评估其性能或数据质量。此外，很少有人对分析方法进行实证比较，研究人员可能很难评估哪些分析对他们的脑电图数据最有效。此外，这些预处理分析会影响后续的分析，一些预处理方法仅限于为时频分析或静息状态的脑电图数据做准备数据。HAPPE软件（Gabard-Durnam et al.2018）提出了一种自动化、可量化和标准化的脑电图数据处理方法，该方法具有在发育和临床人群中看到的高水平的伪迹，并提高了跨获取设置和用户编码频率的可访问性。为了便于对整个生命周期的ERP数据处理，HAPPE ER包括预处理ERP数据的代码，以及高效、自动创建处理后的代码。HAPPE ER现在包括了对数据输入（数据质量报告）和处理方法（管道质量报告）的补充的、可量化的质量度量。数据可以是多种格式，包括来自EGI、BioSemi和Brain Products等。

2. HAPPE ER pipeline步骤

图1. 图像说明了HAPPE ER pipeline的处理步骤

中间输出由右边的浅蓝色方框标记，并根据保存它们的文件夹进行标记。用户选项由左侧浅蓝框表示，亮的绿色箭头表示选项之间所有可能的流动方法。

2.1 HAPPE ER数据输入

HAPPE ER容纳以不同的采集布局作为输入的多种类型的脑电文件。HAPPE ER管道所接受的完整布局和格式化选项见表1。为了设置格式化的文件，在运行HAPPE ER之前，应该预先设置并嵌入文件中（例如，将其加载到EEGLAB并确认正确的电极位置）。每一批运行的数据都必须具有相同的通道布局（设备、脑电帽以及电极数）和模式（静息状态或事件相关），这些多需要用户指定。文件格式也是，因为单次运行将只支持由用户指定的单一文件类型。HAPPE ER处理任何采样率收集的数据，单次运行的文件可能各自的采样率不同。刺激标记、范式事件和/或感兴趣的条件（通常称为前进的事件标记）应该出现在读入HAPPE ER的数据中。事件标记如何嵌入到数据文件中，将取决于刺激－呈现软件和获取系统。

表1 由HAPPE ER支持的获取布局和相关文件类型的列表

2.2 通道选择

HAPPE ER提供了多种通道选择选项，以便用户可以选择最适合其数据集需求的通道。HAPPE ER不将用户限制在特定数量的通道上，因为以后的处理步骤不依赖于通道数量。

2.3 线性噪声消除

HAPPE ER可以消除电噪声（例如，60或50 Hz），通过CleanLine program（Mullen，2012）的多维度回归方法，可以在不牺牲或扭曲附近频率的潜在脑电图信号的情况下去除电噪声。CleanLine多维度回归扫描用户指定频率± 2 Hz附近的线性噪声信号，4秒窗口为1秒步长，平滑度为100，在电噪声去除过程中，正弦回归系数的显著性阈值为p = 0.01。这个过程是高度特定的电噪声的频率，用户可以指定为60 Hz或50 Hz，如果有过多的线噪声（如：30 Hz, 25 Hz）用户还可以指定谐波来减少。

2.4 重采样（250、500或1000Hz）（可选）

用户可以选择将他们的数据重采样到250、500或1000 Hz。用户可以使用此选项来减少文件大小，或将数据与以较低的采样率收集的其他项目或文件对齐（注意，用户可能不会对数据进行上采样，例如从500到1000 Hz）。HAPPE ER功能优化这些常见的采样率（例如小波阈值步骤），用户采样率从高往下可以实现最佳性能重新采样（例如从2000 Hz到1000 Hz）。

2.5 滤波（100 Hz低通）

HAPPE ER在伪迹抑制和坏通道检测（如果选择）之前，应用一个100 Hz的自动低通滤波器，只评估在神经活动的频率范围内的数据。在去除伪迹之后，用户会对特定的ERP (s)进行再滤波。注意，没有高通滤波。

2.6 坏通道去除（可选）

HAPPE ER可以检测和去除由于高阻抗、电极损伤、头皮接触不足以及在整个记录过程中过度运动或肌电图（EMG）伪迹而污染数据的通道。HAPPE ER对提交给处理的整个数据文件执行以下步骤（阈值由经验优化确定，下面进行了证明）：

1.检测无信号通道（>5s则拒绝）

2.根据其功率谱检测离群值信道（通过EEGLAB rej_chan函数运行两次；如果与平均功率相比，拒绝大于3.5个标准差或小于-5个标准差）

3.检测剩余的被压制线噪声污染（通过清洁RawData的线噪声标准；如果平均线噪声/神经信号比大于6个标准差）

4.基于与所有其他信道的相关性检测离群信道（通过CleanRawData的信道准则；当小于0.8相关时拒绝）

为了测试不同坏通道检测功能的有效性并确定检测的最优标准值，作者将一系列自动伪迹识别与一组专家识别的EGI数据集（每个文件具有相同的39个通道评估子集，共20各数据集，一共780个通道）进行比较，以专家一致同意的坏通道为真实坏通道，评估结果见表2。

表2在EGI数据集的20个文件上测试识别坏通道参数性能

2.7 小波阈值

两种主要的伪迹校正方法包括独立分量分析（ICA）和小波阈值分析（由HAPPE ER使用）。简单地说，ICA将跨电极的数据聚类为独立的成分，可以从神经时间序列中分离伪迹，而小波阈值使用系数解析频率范围内的数据，该系数可以检测电极数据或独立成分的时间局部伪迹波动（详细解释见Gabard-Durnam等人，2018年）。ICA要求拒绝整个时间序列，这依赖于神经与伪数据的充分分离，以及适当拒绝成分，以最小化从充满伪数据的时间序列中提取神经信号。小波阈值法提供了时间和频率局部化的伪迹检测和去除，而不造成无伪迹的信号失真。HAPPE ER应用小波阈值化，在分割和试验拒绝之前执行这种伪迹校正。在HAPPE ER中有两个小波阈值选项可选—一个“软”或“硬”阈值。软阈值适合具有最少伪迹数据（如健康成人样本），因为该选项可以在一般干净的信号条件下最好地保持ERP振幅。硬小波阈值可能对高或可变伪迹污染的数据（例如，大多数发展样本）是首选，这个选项提供了更严格的伪迹去除条件以减少振幅损失和保留更多的试次。

2.8 ERP过滤器

HAPPE ER允许用户选择滤波器类型和滤波频率，以将数据限制在ERPs中感兴趣的频率（例如0.1-30Hz）。具体来说，HAPPE ER提供了两种滤波器类型供选择，(1)a Hamming windowed sinc FIR filter（EEGLAB的pop_eegfiltnew函数，滤波器顺序从用户输入频率截止估计）， (2) IIR butterworth filter（ERPLab的pop_basicfilter，顺序估计为（采样率/高通频率）的3*整数部分）。独立于滤波器类型，用户可以输入任何想要的高通和低通频率截止点。

2.9 分割（推荐）

如果选择了分段，erp还有两个附加选项：基线校正（推荐）和段内的数据插值（可选的伪迹校正步骤），下文将详细描述。

2.11 坏数据插值（可选）

每个段中的每个通道根据四个FASTER的标准（方差、中值梯度、振幅范围和偏离平均振幅）进行评估，并为每个指标生成该段中每个通道的Z分数。任何有一个或多个Z分数与单个段的平均值大于3个标准差的通道，都只对该段数据不利。这些标准可以识别在特定通道中具有残留伪迹的段。随后，对于每个段中标记为坏的通道的数据用球形插值，允许用户保持最大数量可用段，同时仍然在单个段内最大化成分拒绝。然而，我们提醒用户在他们选择通道子集的情况下实现此选项，这样通道之间的距离很大，因为插值过程将从不能反映该头皮空间适当活动轮廓的远端通道提取数据。

2.12 坏段剔除（推荐）

根据振幅、联合概率或两个准则拒绝坏段。基于振幅剔除有助于消除残留的高振幅伪迹（例如，眨眼、来自干燥电极的漂移、不连续）。用户将指定一个伪迹振幅阈值，这样至少有一个通道的振幅超过所提供的阈值的任何段都将被标记。HAPPE ER建议婴儿数据的伪阈值为−200-200，儿童、青少年和成人数据的伪阈值为−150-150。概率用EEGLAB的pop_jointprob函数计算的。计算给定同一电极在所有其他段的活动在段中的联合概率（单电极概率），并计算给定同一段的所有其他电极活动在段中的活动的联合概率（电极组概率）。当(1)一个通道的单电极概率或(2)其电极组概率超出平均值3个标准差（半自动视觉检查设置良好）时，任何片段都被标记为拒绝。然后同时拒绝用户选择步骤中的标记的所有段。值得注意的是，此段拒绝步骤可以在所有用户指定的通道上运行，或者在特定感兴趣区域（ROI）的通道子集上运行。ROI-信道子集选项允许用户为特定的ROI分析定制细分拒绝，如果该ROI相对于信道中的其他ROI的伪迹污染较少，则可能为每个个体保留更多的数据。

2.13 坏通道插补

对于所有的HAPPE ER运行，无论分割选项如何，任何在坏通道剔除处理步骤中被移除的通道现都会可球形插值。通道插值为用户指定的完整通道集重新填充数据，并减少均值重参考时的偏差。插值的通道将被记录在HAPPE的处理报告中，以供数据重用。

2.14重参考（平均或COI）（可选）

用户可以指定使用所有通道的平均参考或使用一个或多个信道的信道子集。重参考还减少了电极间一致存在的伪信号，包括残留的线噪声。

2.15 按事件标记分割数据

对于具有多个事件标记读入HAPPE ER的文件，此阶段的数据被解析并提供：1、包含所有事件标记的文件，2、每个文件中只包含具有相同事件标记的trial文件，3、只包含具有相同条件的trial的文件。

3. HAPPE ER输出：预处理后的ERP数据

根据对数据的处理顺序，将中间文件归入文件夹，包括：(1)滤波到100 Hz和线噪声降低后的数据，(2)坏通道剔除后数据，(3)小波后阈值的数据，(4)过滤分段ERP的数据。如果启用分段，HAPPE ER输出一到三个额外的中间文件：(5)分段后的脑电图数据，(6)基线校正数据（如果启用基线校正），(7)插值数据（如果启用不良数据插值）。如果选择坏段剔除，HAPPE ER也保存坏段剔除后数据。这个阶段的所有文件都包含单个试次的数据（在预处理过程中不进行试验平均）。

软件结果可以输出为.mat,set，和.txt 格式，建议使用.txt文件格式，它总共输出三个文件：(1) A.包含每个采样时间点每个电极各trial的平均值的Txt文件，(2) 包含每个单独试验中每个电极的数据，(3)完全处理的脑电图的EEGLAB.set文件。对于具有多个事件标记的数据，提供包含所有事件标记的文件的输出和每个包含一个事件标记的文件并相应标记。最后，如果用户在半自动化设置下运行HAPPE ER，那么该软件将为包含完全处理过的数据的功率谱的每个文件生成一个图像。

4. HAPPE ER输出：数据质量评估

HAPPE数据质量评估报告每个脑电图文件的描述性统计和数据度量的报告表格，以帮助快速有效地评估研究中或跨研究参与者的数据质量。包含所有这些度量的报告表以.csv文件的形式提供，它包含在HAPPE ER期间生成的“质量评估输出”文件夹中。具体有：

质量指标	具体解释
以秒为单位的文件长度	处理前的每个文件的长度，单位为秒。
拒绝前的段数和拒绝后的段数	用于报告每个文件的可用数据段数量的平均值和标准差
已选择好通道的百分比和已插值通道ID	用户可以很容易地使用这两个指标识别要删除的文件，从而限制插值数据量
保留的百分比差异	为每个文件提供了小波阈值后相对于前小波阈值的数据百分比。排除在经过伪迹校正后没有保留足够的数据
ICA相关指标	在HAPPE 2.2中的ERP分析中测量ICA性能的指标被分配为“NA”。（版本有差异）
HAPPE管道质量评估报告	指示数据操作在预处理过程中如何改变信号的指标。
linenoise移除前后	这些互相关值可用于评估线噪声去除的性能，因为相关前和线后噪声去除应在指定频率下较低，但在超过1-2Hz的周围频率下不较低。这个度量标准也可以用来检测在记录过程中出现了多少线噪声的变化
前/后Wav-threshold	自动输出小波在所有频率阈值前后的互相关值，特别是0.5 Hz、1 Hz、2 Hz、5 Hz、8 Hz、8 Hz、12 Hz、20 Hz、30 Hz、45 Hz和70 Hz。可以用来评估小波对每个文件的数据的性能。请注意，这种测量也可以用于排除基于小波过程中显著的信号变化（表明高度的伪迹）

前/后线噪声去除指标可能指示导致数据中线噪声显著增加的环境或处理偏差；选择通道百分比和插值通道ID指标可用于跟踪是否应用和检查信号质量之前范式或信号通道是否需要修复。进一步指导，用户可以参考使用HAPPE ER软件分发的用户指南。

5. 使用生成程序脚本创建ERP并计算ERP值

HAPPE ER在插件/生成子文件夹中提供了一个可选的后处理脚本，称为“generateERP”，能够生成ERP波形并对生成的ERP执行一系列计算。这个脚本与HAPPE ER管道的脚本是分开的，以鼓励用户在生成ERP数字和度量之前检查他们的数据质量和HAPPE ER的性能。任何没有通过数据质量阈值的文件都应该在运行生成erp脚本之前从输出文件夹中删除，否则它们将包含在后续的数字和度量中。与HAPPE ER类似，生成ERP在直接从命令行获取的输入上运行，并支持保存和重新加载运行的参数，继续HAPPE ER的目标，使所有编程熟悉程度的研究人员都可以访问处理。要创建ERP波形，按图1中的流程先处理后，用户还被问及是否需要为批中的每个文件计算一套与ERP相关的标准度量，以便进行后续的统计分析。用户必须指定：(1)感兴趣的延迟窗口（例如，刺激后50-90 ms），(2)他们是否预期最大值或最小值出现在该窗口（即积极或消极的ERP成分），(3)是否计算曲线下面积和平均振幅使用时间窗口作为边界，使用ERP数据中的零交叉作为边界，或报告两种方法措施，并报告该度量的值和延迟。结果样例见图2。

图2. 在所有面板中，阴影区域不包括在计算中。A）表示指定延迟窗口内的最大值（绿色）和最小值（蓝色），用垂直黑线表示。B）表示整个ERP波形的最大值（绿色）值和最小值（蓝色）值。C）指定延迟窗口内的平均振幅用一条蓝绿色的水平线表示，用户指定的边界用实心黑色竖线表示。D）平均振幅由一条蓝绿色的水平线表示，由脚本在数据的零交叉处创建的边界以虚线表示。E）曲线下的面积用浅紫色表示，用户指定的边界用实心黑色竖线表示。F）曲线下的面积用浅紫色表示，而由脚本在数据中的零交叉处创建的边界用虚线表示。G) 曲线下50%的面积用深紫色表示。用户指定的边界用纯黑色竖线表示。交替的点－虚线表示在窗口内达到曲线下50%面积的延迟。H) 曲线下50%的面积用深紫色表示。脚本生成的零交叉点的边界用黑色虚线表示。交替的点－虚线表示在窗口内达到曲线下50%面积的延迟。

6. HAPPE ER与其他预处理方法的比较

模拟的VEP（N1，P1，N2成分），以及这些干净和伪添加的数据集和包含嵌入式模拟VEP的全长文件，作为测试（获取网站https://zenodo.org/record/5172962）。分别经HAPPE ER到小波阈值步骤（软阈值用于clean vs. artifact-added dataset与硬阈值用于additional full-length dataset）。在EEGLAB中运行ICA，包括ICA与MARA 0.5自动拒绝阈值，ICA与ICLabel 0.8自动拒绝阈值，iMARA与0.2自动拒绝阈值（相当于0.8人工IC拒绝的概率），和ICA与人工IC拒绝（人工拒绝IC是由一位在人工预处理EEG和ERP数据方面有十多年经验的专家通过EEGLAB进行的，在数据处理中，单专家拒绝与典型的（至少是报道的）实验室实践相一致）。

对比结果		Wavelet-thresholding VS independent component analysis (ICA)		Summary
clean vs. artifact-added dataset	参与者剔除的比率	没有错误的样本损耗		此标准不适合比较
	ERP形态畸变（见图3）	小波阈值返回绝大多数ERP组件最接近模拟头部分布的真实峰值幅值。小波阈值返回的ERP峰值振幅的估计值与模拟数据最相似。	没有一种自动ICA方法有同样好的效果，而且人工排斥IC的效果也很少。与无伪迹数据相比，ICA方法在伪迹数据条件下更多地降低了ERP振幅	小波阈值化是一种非常具有时间和频率敏感性的伪迹去除方法（尽管不像ICA那样对伪迹聚类具有空间敏感性）。
	ERP振幅误差（SE值）	小波阈值处理返回了绝大多数ERP成分的最低SE值	都比小波阈值值高得多，采用人工拒绝方法的ICA相对低值	小波阈值是表现最好的选择，减少已知模拟ERP信号周围的误差，无论有无伪迹。
	坏段剔除（对伪迹的敏感性）	在干净的数据中，小波阈值处理、IC的手动拒绝和MARA0.5都保留了最高的试验次数，在添加伪迹的数据中，小波阈值处理、手动IC拒绝和MARA 0.5再次保留了最多的试验（这一次MARA0.5保留了最多，明显多于小波阈值）		MARA0.5的结果导致了数据的极端振幅降低，因此更多的试验可能被保留，仅仅因为整个信号完全缩小了，而不是因为它更没有伪迹。小波阈值算法没有导致整体信号的振幅急剧下降。
Full-length dataset	ERP形态畸变	小波阈值选项在保持振幅方面表现最佳，同时减小了95%置信区间的宽度	自动IC拒绝的MARA0.5算法显著降低了全长数据中的ERP振幅，不推荐使用。	使用软阈值或硬阈值的小波阈值可靠地再现跨个体和伪迹水平的模拟ERP信号。
	坏段剔除	软阈值的小波阈值比硬阈值的小波阈值保留了更少的试验，	人工IC拒绝效果最好	小波阈值法拒绝了更多的伪迹，并在个体中更一致地在个体中再现了模拟的ERP信号。

图4. 箱图和散点图说明了成分N1、P1和N2的伪迹校正振幅的差异，作为校正前伪迹水平的函数（即干净的ERP振幅－伪迹后校正减去伪迹添加的ERP振幅启动后校正）。

7. HAPPE ER与其他自动化预处理流程的比较

与最近也在ERP数据中应用的两个流程：EEG-IP-L（Desjardins等人，2021年）和MADE（Debnath等人，2020年）比较。首先是多个概念、目标和用户相关的差异。EEG-IP-L使用了本文测试的ICLabel算法，EEG-IP-L作者建议人工检查和编辑ICA以获得最佳性能；MADE软件提供了全自动预处理，但是坏段剔除和伪迹去除的方法和HAPPE ER不同，采用FASTER和ADJUST插件算法，且MADE没有提供HAPPE ER的通用ERP后处理功能的补充用于生成ERP指标和图形，由于依赖ICA进行校正，它也不能容易地容忍用于ERP分析的低密度EEG数据。文中作者也通过模拟的数据和实验数据对三种自动化流程进行了比较，得出：在婴儿VEP数据集的评估标准中，MADE相对于HAPPE ER导致了文件损耗，虽然两个管道在试验匹配条件下产生了稳健的ERP形态，HAPPE ER比MADE保留了更多的试验。这些结果可能反映了HAPPE ER对伪迹校正中更多的伪迹类别的敏感性，或相对于ICA的优越性能。

8. 用户验证和安装方法

最后作者提供了addSimERP.m脚本可以很容易地将上述模拟ERP信号添加到他们的连续基线/静息状态脑电图数据中，与主HAPPE脚本和生成ERP一样，用户可以选择所有要添加ERP时间序列的通道，或者使用前面描述的包括/排除方法选择通道的子集。虽然目前只支持。set格式的连续脑电图文件，并包括通道位置，但作者希望使脚本的功能也包括.mat和.raw格式的输入。addSimERP.m只允许将模拟的VEP时间序列添加到所提供的数据中，但此选择将被扩展，以促进其他模拟的ERP时间序列的选择，并支持跨各种波形的验证。HAPPE ER完全通过MATLAB命令行运行，要运行HAPPE ER，只需打开MATLAB，导航到HAPPE 2.0文件夹，然后打开HAPPE 2.0脚本。在屏幕顶部的“编辑器”选项卡中，点击“运行”，并按照它们在MATLAB命令行中出现的提示进行操作。在命令行输入所有相关输入后，HAPPE ER将自动运行完成。HAPPE ER代码和用户指南可以在：https:// github.com/PINE-Lab/HAPPE上免费获得。本手稿中使用的数据可以在：https://zenodo.org/record/5172962免费获得。

参考文献：The HAPPE plus Event-Related (HAPPE ER) software: A standardized preprocessing pipeline for event-related potential analyses

erp 数据分析编程算法数据处理

0 人点赞