主成分分析PCA在脑科学研究中的应用

2021-03-08 10:04:22 浏览数 (1)

一、PCA背景 在脑科学的研究中,我们通常会获得高维度多变量的数据,虽然高维度数据为我们的研究提供了更大的分析和研究自由度,但是也会无形当中为我们的分析增加很多成本和工作量。另外一个问题是,在这么多维度的数据中,很多变量之间是存在很强相关的,此外,个别指标和数据完全是冗余的无用的。因此,如果能够找到一种方法,在降低数据维度的同时能够尽量减少数据信息的丢失,那么将会大大降低我们分析数据的工作量,并且能够简化数据分析。比如说,上面说到的,两个强相关的指标,可以用一个新的指标表示。我们这里所说的主成分分析PCA正是基于这样的实际需求而发展出来的一种降维算法。 本文中,笔者重点对PCA在脑科学研究中的应用进行论述,使读者先对PCA的应用场景有一个全面了解。 二、PCA的应用 PCA的应用主要在如下几个方面: 1.降低数据存储空间,压缩数据 PCA算法可以把n维的数据降低到k维数据,其中k小于n;比如说,几个高度强相关的数据,经过PCA降维之后,这几个高度强相关的数据可以用一个新的指标/数据进行表征,这样的话相当于压缩了数据,在存储时可以大大降低硬盘存储量。更重要的是,当你再次从硬盘中调取压缩后的数据后,可以把PCA降维后的数据通过矩阵变换恢复原始数据。 2)进行数据可视化 我们获得的数据往往是高维度,高维度数据往往不便于进行可视化,这样的话给我们展示、查看数据带来很大的不便。我们通过PCA降维,从高维降低到低维,如从4维降低到3维或者2维,便于数据的展示和查看。如图1所示,3维空间的数据点,经过PCA降维之后,投射到2维平面上,在2维平面上可视化数据对我们来说更容易更直接。

图1(注:图片来源于网络)图1(注:图片来源于网络)

3)在机器学习中作为一种降低特征数量的方法 目前,机器学习技术已经渗透到脑科学领域,利用机器学习可以对疾病进行辅助诊断、客观生物标志物寻找、发病机制研究、药物和非药物手段的调控效应研究以及认知状态的解码等方面。不论是基于EEG还是MRI,亦或是其他技术手段,我们获得的数据或特征往往是高维度的。以EEG为例,现在用的EEG设备往往通道数比较多(如64通道),那么即使你在一个通道上计算得到一个指标,那至少也有64个特征。当特征维度较高时,特别是特征数目大于样本数目时,直接把它们输入到机器学习算法中进行训练,往往会造成过拟合问题以及降低训练和预测速率。此时,我们可以通过PCA降维算法,把高维度的特征降低到低纬度,进而降低特征数目,降低机器学习过拟合的风险,加快机器学习训练和预测速度。 4)提取ERP中特定的ERP成分 在脑电ERP研究中,某些ERP成分往往是相互叠加的,这样就会使得成分的幅值和潜伏期的测量不太精准。此时,可以利用PCA算法把相互叠加的成分提取出来,得到相对“干净”的ERP成分。目前,有专门用于ERP成分提取的PCA工具包(ERP PCA Toolkit,https://sourceforge.net/projects/erppcatoolkit/files/erppcatoolkit/),刚兴趣的可以深入了解。

0 人点赞