Nat. Commun | 利用深度学习预测脑年龄

2021-02-04 15:24:59 浏览数 (1)

作者 | 李清文 编辑 | 庞超

今天给大家介绍Stefansson与Ulfarsson等人在Nature Communications volume上发表的文章“Brain age prediction using deep learning uncovers associated sequence variants”。一个人的预测年龄和实际年龄之间的差异,即预测年龄差(PAD),是与衰老和脑部疾病相关的一种表型。作者通过深度学习的方法根据大脑结构磁共振成像(MRI)估计年龄,该方法在一个健康的冰岛人的数据集上进行了训练,并利用迁移学习在两个数据集:IXI和UK Biobank上进行了测试,得到了较理想的预测结果。在UK Biobank中,对PAD进行全基因组关联分析(GWAS),发现了与脑结构相关的序列变体。

一、研究背景

衰老对大脑有显著的结构性影响,这与心理和身体健康状况下降以及神经退行性疾病(如阿尔茨海默病和帕金森氏病)的风险增加有关。最近的研究表明,磁共振成像可以用来预测年龄段,并且准确度相当高。这样的预测在独立样本中提供了生物脑年龄的估计。进行脑年龄预测的传统方法是从大脑磁共振成像中提取特征,然后进行分类或回归分析。特征提取包括提取主成分、皮质厚度和表面曲率、灰质(GM)、白质(WM)和脑脊液(CSF)的体积,并构建相似性矩阵。使用特征提取方法的缺点是信息丢失,因为特征可能不是明确地设计用于提取与大脑年龄相关的信息。

最近,深度学习(DL)方法引起了人们的极大兴趣。这些方法在没有先验偏见或假设的情况下学习重要的特征。卷积神经网络(CNN)是一种深度学习技术,特别适用于图像处理和计算机视觉。在此之前,它们已被应用于脑年龄预测。值得注意的是,Cole等人实施了一种基于T1加权磁共振成像的3D CNN来预测脑年龄,并取得了令人振奋的结果。PAD(预测的大脑年龄和实际年龄之间的差值)估计了与健康老龄化的偏差。研究表明,正PAD与精神和身体健康降低的程度相关;包括握力较弱、肺功能较差、行走速度较慢、体液智力较低、较高的非稳态负荷以及死亡风险增加。此外,正PAD已被证明与认知障碍、糖尿病、创伤性脑损伤、精神分裂症和慢性疼痛有关。另一方面,负PAD与更高的教育程度、更多的体育活动等联系在一起。

此外,PAD已被证明是可遗传的,并且与精神分裂症、双相情感障碍、多发性硬化症和阿尔茨海默病等脑部疾病有多基因重叠。此外,在精神疾病和一些神经疾病之间发现的高度遗传相关性表明,目前的诊断界限不一定反映潜在的生物学。因此,定义一种新的表型来捕捉大脑结构中与年龄相关的全局变化,可以通过与这些变化相关的基因组序列中的变异,提供新的生物学见解。

在这里,本篇文章提出了一种新的脑年龄预测方法,它使用基于核磁共振成像(MRI)训练的3D CNN来预测脑年龄。输入数据是T1加权图像和来自T1加权图像的数据,即雅可比图,以及灰度和白质分割图像。输入数据还包括有关受试者的性别和MRI扫描仪类型的信息。该网络的输出是预测的大脑年龄。

如上所述,Cole等人已经训练了3D CNN来进行脑年龄预测。该文章的网络在四个关键方面有所不同。

(1)该文章使用了截然不同的架构。Cole等人的体系结构类似于标准的VGGNet体系结构,而该文章的体系结构使用了最新的ResNet。VGG体系结构的缺点之一是梯度消失问题限制了网络的潜在深度。相比之下,ResNet架构没有这样的深度限制。

(2)该文章将输入内容添加到最终的CNN层,以加入有关性别和扫描仪的信息。

(3)首次使用雅可比图编码的形变信息预测脑年龄。

(4)正如该文章已经提到的,该文章的方法通过平均预测或通过训练数据混合器来组合来自多个CNN的预测。该文章将他们提出的方法与几种基于特征提取和机器学习的脑年龄预测方法进行了比较。该文章还证明,迁移学习对于调整CNN的训练以预测一个数据集的大脑年龄到一个新数据集是有用的,同时保持预测的准确性。最后,该文章使用UK Biobank的数据对PAD进行了遗传分析,鉴定了与五个序列变体的关联,并提供了详细的表型特征。

二、模型与方法

2.1 CNN结构

该文章开发的CNN架构基于 residual架构。它是使用Keras和TensorFlow作为后端来实现的,它由五个residual块组成,每个residual块后面是步幅为2×2×2,内核大小为3×3×3的最大池化层以及一个完全连接的块。CNN的卷积部分将输入图像从大小121×145×121减少到大小4×5×4的128个特征图。完全连接部分将这些特征图缩小到年龄预测。

residual块由层的组合组成,这种层在残差块内重复两次。组合层由步幅为1×1×1,内核大小为3×3×3的3D卷积层,一个batch renormalization层和ELU激活函数组成。

完全连接的模块是具有一个隐藏层的多层感知器(MLP)。输入层具有10240个神经元,隐藏层(FC 1)具有256个使用ELU激活函数的神经元,输出层具有单个神经元。在隐藏层之后,使用keep rate为0.8的dropout层。输出层(FC 2)没有激活函数,这意味着它会对隐藏层特征执行线性回归。为了考虑诸如扫描仪类型和性别之类的因素会影响一个人的预测大脑年龄,该文章通过将它们与MLP的隐藏特征联系起来,将它们作为线性回归的输入。

2.2 SBM,VBM和相似矩阵脑年龄预测

SBM特征是使用Freesurfer的Recon-All算法生成的,VBM特征是使用CAT12工具箱生成的。将各对象的灰质和白质分割后的图像进行内积运算,构造相似度矩阵。SBM和VBM特征根据颅内容积、性别和扫描仪类型进行了调整。然后将特征中心化与归一化为单位方差。被测试的回归方法有:线性回归,lasso,ridge regression, elastic net,随机森林回归,支持向量回归,相关向量回归,高斯过程回归。使用网格搜索来寻找与所述方法的最小交叉验证误差相对应的调谐参数。除相关向量机使用SCRICIT-RVM外,其余回归模型均使用SCISKIT-LEN实现。

2.3 统计方法

为了评估机器学习方法的准确性,该文章进行了简单的训练集和验证集拆分,并通过评估验证MAE选择合适的模型。来自冰岛样本的被试被划分为这三组,如果一个被试具有多个图像,则所有图像都放在同一组中。数据分为64%的训练集(Ns=809,Ni=1171),16%的验证集(Ns=202,Ni=298)和20%的测试集(Ns=253,Ni=346),Ns和Ni分别为图片和被试数量。在评估机器学习模型时,将计算验证和测试集中图像的MAE和R2score。

为了评估迁移学习性能,将IXI数据集分为80%训练集(N=440),20%验证集(N=104),并将整个UK Biobank数据集用作测试集(N=12395)。该文章通过在验证和测试集上计算MAE和R2score来评估准确性。

为了测试PAD的可靠性,使用ICC R包中的ICCbare计算类内相关性。95%置信区间是通过使用 bootstrapping 进行2000次采样迭代估算的。

三、实验结果

本文所进行的研究过程与使用的脑磁图如图1所示。

图1. a.本文所进行的研究过程 b.作为输入的四种脑磁图

表1A是用不同类型的图像作为输入,预测年龄的结果,可以看出使用T1加权图片的预测效果最佳。来自四个不同数据源的四个预测为组合预测提供了可能性。组合预测的最直接方式是使用多数投票方案(MV),例如,通过对四个CNN所做的预测求平均。另一种组合预测的方法是实现一个数据混合器,例如,通过实现一个线性回归模型,该模型被训练成根据CNN的四个脑年龄预测来预测脑年龄。这项技术试图找到四种脑年龄预测的最佳线性组合,因此从理论上讲,它至少应该和最好的CNN预测方法一样好。为了证明这一点,该文章尝试结合使用多数投票和线性回归数据混合(LRB)的CNN脑年龄预测(表1B)。将表1B的测试集结果与表1A中的结果进行比较,可以看到,组合预测产生的测试误差低于对T1加权图像进行CNN训练所获得的测试误差。

同时采取上述策略,对传统特征提取与机器学习模型进行测试,表1C列举了使用相关向量回归(RVR)和高斯过程回归(GPR)方法进行预测的结果。通过对比可以看出使用LRB策略的CNN模型性能是最理想的。

表1. 用于预测年龄的不同方法

该文章通过实验,得到结果(表2)表明,使用迁移学习可以提升在同一数据集上的预测结果。

表2. 使用与不使用迁移学习对IXI和UK Biobank数据的预测结果

以前的研究已经将高PAD与认知障碍联系起来。有鉴于此,该文章有兴趣看看PAD是否与神经心理测试的表现有关。具体地说,在UK Biobank进行的旨在衡量以下指标的测试中的表现:流体智力、数字记忆、视觉记忆、前瞻记忆、简单处理速度、复杂处理速度、视觉注意力和语言流利性。为了估计英国生物库中的PAD,该文章在冰岛数据集上训练了四个CNN,然后使用迁移学习来训练IXI数据集,并使用多数投票来组合它们的预测。在流体智力、数字记忆、配对和前瞻性记忆测试中,该文章没有发现PAD与表现相关的证据。然而,从表3中看到,PAD与数字替换测试(DSST)、跟踪测试(TMT)和反应时间测试的表现较差有关。正如预期的那样,这些结果表明PAD实际上与认知障碍有关。

表3. PAD与神经心理测试之间的相关性

PAD先前已被证明是可遗传的,然而,目前还没有鉴定出具有PAD风险或保护PAD的序列变体。为了寻找这样的变体,该文章使用Bolt-LMM31在PAD上对UK Biobank样本进行了基因组范围关联扫描(GWAS)。这种扫描产生了两个序列变体,rs2435204-G和rs1452628-T(图2和表4)。此外,鉴于已知与脑结构相关联序列变体很可能也与PAD相关联。该文章决定测试一组较小的331个大脑结构变异与PAD的关系。这产生了三个额外的关联变体(表4)。

图2. 对UK Biobank数据的GWAS结果

表4. 与PAD相关的序列变体

四、总结

本文通过深度学习框架,准确预测了脑年龄并证明了迁移学习可以有效地提升预测准确率。通过神经心理测试,探究了PAD与认知障碍的关系。并且利用预测所得到的PAD,通过GWAS鉴定出与之有关的序列变体,填补了这一领域的空白。


参考文献

Brain age prediction using deep learning uncovers associated sequence variants

B. A. Jonsson, G. Bjornsdottir, T. E. Thorgeirsson, L. M. Ellingsen, G. Bragi Walters, D. F. Gudbjartsson, H. Stefansson, K. Stefansson & M. O. Ulfarsson

0 人点赞