重度抑郁症(MDD)是一种最常见的心理健康疾病,它与脑萎缩和死亡率的关系已被深入研究。最近的研究表明,预测年龄和实际年龄之间的偏差可能是大脑衰老加速表征MDD的标志。然而,目前的结论通常是基于从白人参与者收集的结构MRI信息得出的。这一生物标志物的普遍性需要通过不同民族/种族背景的受试者和不同类型的数据进一步验证。在这里,我们使用REST-meta-MDD,一个从中国多个队列参与者收集的大规模静息状态fMRI数据集。我们开发了一个基于1101个健康对照的堆叠机器学习模型,该模型通过功能磁共振成像(fMRI)估计受试者的实际年龄,具有很好的准确性。训练后的模型应用于来自24个地点的1276名重度抑郁症患者。我们观察到MDD患者表现为a 4.43年,高于对照组的脑预测年龄差异(brain-PAD)。在MDD亚组中,抗抑郁药物使用者的脑PAD与非药物使用者的比较,我们观察到有统计学意义的 2.09年。观察到的统计关系进一步通过三种不同的机器学习算法进行检验。在中国参与者中观察到的脑内PAD阳性证实了重度抑郁症患者大脑加速老化的存在。利用脑功能连通性进行年龄估计从一个新的维度验证了现有的发现。
- 1. 简介
全球人口老龄化预计将是21世纪最突出的社会变化之一。由此带来的与年龄相关的功能衰退和疾病的负担将对社会所有部门,特别是医疗保健部门提出挑战。因此,了解衰老和疾病风险之间的生物学联系对提供有效的护理和治疗变得越来越重要。衰老可以被视为一个动态的过程,在这个过程中,个体随着年龄相关损伤的累积而逐渐丧失其功能。在这一过程中,大脑的结构和功能也发生了显著的变化。由于中枢神经系统的衰老过程可能与身体其他部位不同,因此在评估认知能力下降的风险和神经退行性疾病的倾向时,大脑特定的衰老标记物可能特别重要。“大脑加速老化”是指,与实际年龄相比,大脑的年龄显得更大的现象。脑预测年龄差(Brain - PAD),由神经影像学估计的脑年龄与实际年龄之间的差异计算,易于与认知老化或年龄相关脑障碍的风险相关。这种基于神经成像的生物标志物可在几种神经障碍中观察到,包括精神分裂症、阿尔茨海默病、癫痫、多发性硬化症和创伤性脑损伤。此外,脑PAD与死亡率之间的联系也有报道。
最近的研究开始探索加速大脑衰老和严重抑郁障碍(MDD)之间的关系,MDD是一种广泛的、使人衰弱和致残的精神疾病,与细胞衰老和认知能力下降相关。尽管报道了正相关,但目前的研究仍存在一些局限性。首先,样本的大小对发现的关系的稳定性有很大的影响。虽然研究了不同体型的受试者,但据我们所知,只有一项研究分析了1000多个个体的数据。此外,目前的研究大多以白人为研究对象。联想的泛化性还需要在不同民族和文化背景的受试者中进一步验证。同时,脑年龄通常通过MRI结构判断,以脑灰质或白质体积和皮层厚度为主要特征。但是,从其他类型的神经成像数据估计的大脑年龄是需要验证的。最后,目前的研究往往只依赖一种机器学习算法来估计大脑年龄。由于不同的算法产生不同的估计,我们有理由怀疑得出的结论是算法敏感的。当应用新的算法时,原先报告的统计上显著的关联可能会消失。
为了克服这些限制,我们利用REST-meta-MDD收集的静息状态功能磁共振成像(rsfMRI)数据。REST-meta-MDD是一个来自中国的多站点协调项目,包含1000多名MDD患者和正常对照。我们利用三种不同的机器学习算法,通过静息状态功能连通性来估计大脑年龄。我们进一步提出了一个叠加模型,结合三种算法的结果,以达到更优的年龄估计。我们对每个算法得到的结果进行单独的分析,以检查得出的结论的鲁棒性。我们以中国受试者为研究对象,证实了大脑加速老化与抑郁症之间存在正相关关系。MDD患者的脑PAD明显高于对照组,结论不受应用的机器学习算法的影响。我们分别分析不同抑郁严重程度、病程、发作状态和用药状态的MDD患者,研究脑PAD与人口统计学(年龄、性别)和临床特征的关系。我们发现MDD患者的脑PAD与病程之间存在显著相关性,抗抑郁药物使用者的脑PAD高于非药物使用者。
- 2. 方法
- 2.1 样本
我们通过来自REST-meta-MDD联盟的MDD患者和匹配对照组(12 - 82岁)的rsfMRI指数进行了这项研究,该联盟由来自中国17家医院的25个研究小组组成。所有重度抑郁症患者都是在医院确诊的,并至少进行了t1加权结构扫描和rsfMRI扫描。所有受试者同意提供诊断、年龄、性别和受教育年限。汉密尔顿抑郁评分量表(HDRS)包含17个项目,并提供其他表格数据,包括发作状态(如果患者之前和现在的发作根据ICD10或DSM-IV被诊断为MDD),药物状态(是否使用抗抑郁药物),以及疾病持续时间。经过质量控制,我们得到了来自24个地点的1276名MDD患者和1101名对照者的样本集。每个站点的样本量和扫描参数见补充表S1和表S2。每个本地站点的参与者都要签署书面知情同意书,所有数据都要去识别和匿名化。此外,所有场地都要获得当地机构审查委员会和伦理委员会的批准。
- 2.2 静息态功能磁共振数据预处理和功能脑网络构建
静息态fMRI数据处理助手(DPARSF)被用作标准化的预处理管道。为了获得功能连接,我们首先基于自动解剖标记(AAL)图谱提取116个平均血氧水平依赖(BOLD)信号。接下来,我们计算了BOLD活动时间序列之间的Pearson相关系数。我们使用Z-Score方法对每个受试者的功能连通性进行归一化,以减少成像位点的影响。我们还测试了Combat方法,其结果见补充信息表S3和S4。总的来说,Z-Score方法在本研究中表现更好。关于数据预处理过程的更多细节见补充资料S2。
- 2.3 模型训练和评估
为了获得模型的输入特征,我们将全脑相关矩阵的上三角重塑为包含6670个元素的一维向量。为了确定健康个体的大脑衰老模式,我们首先在包含1101个正常对照的训练集上训练一个大脑年龄预测模型。接下来,我们利用该模型估计了测试集上1276名MDD患者的大脑年龄。脑年龄预测首先采用弹性网、贝叶斯脊和脊回归三种经典监督学习算法进行。进一步,我们从集成学习中引入叠加模型,将三种算法的结果进行组合,得到了最佳的估计结果。流程如图1和补充图S1所示。四种模型在后续实验中得到了一致的结论。为了避免不同方法之间的切换,使论文的流程更加简洁,我们在正文中使用了叠加法的结果。基于其他三种算法的分析见补充表S5。
图1 分析流程
我们分别在对照组和MDD组中评估我们的模型性能。我们首先在整个训练集上用五倍交叉验证对模型进行评估。然后,在每个折叠中使用相同的模型来预测整个测试集上MDD患者的脑年龄。四种模型的性能评价基于以下三个指标:平均绝对误差(MAE)、均方误差(MSE)和平均决定系数(R2)。所有模型都是通过基于python的sklearn包实现的,所有参数都设置为默认值。
- 2.4 统计分析
为了确定MDD患者相对于对照组的大脑衰老是否加快,我们将整个对照组分割,使用保留方法获得固定训练集和验证集。虽然规模不大,但这个保留的验证集包含来自所有站点的正常控制,具有整个年龄跨度,提供了Rest-meta-MDD的无偏的年龄表示。由于本研究的目的是探索正常对照组和MDD患者之间潜在的脑年龄差异,我们分别估计了两组患者的脑年龄。模型在由正常对照组成的保持验证集中进行训练和测试。然后将训练好的模型应用于测试集中的所有MDD患者,以估计他们的大脑年龄。从估计年龄中减去实际年龄,得到脑PAD作为结果变量进行统计分析。采用五重交叉验证比较不同模型的整体性能。保留验证集作为脑PAD比较的正常对照组。由于回归稀释和非高斯年龄分布等因素,我们需要进行年龄偏差校正。我们对测试集的剩余年龄效应应用事后修正。根据Peng et al.,我们训练了一个线性回归模型来校正大脑年龄偏差。我们计算实际年龄和持有验证集上的估计年龄之间的回归线。然后利用回归线的斜率和截距来调整测试集的脑预测年龄值。此过程的步骤见补充资料S4。经过年龄偏差校正后,脑PAD与实际年龄无关(补充图。S2和S3)。我们采用以性别、诊断、年龄、年龄为协变量的单变量广义线性模型(GLM)来探讨脑PAD与临床特征之间的关系。此外,采用双样本t检验比较不同亚组的脑PAD。通过错误发现率校正来纠正多次比较。统计学显著性阈值设置为p <0.05.
- 3. 结果
- 3.1 模型表现
从训练集的每一叠中获得的模型被用来估计验证集中其余对照组以及测试集中的MDD患者的个体的大脑年龄。表1显示了四个模型的882个训练对象、219个验证对象和1276个测试对象的性能。在三种经典的机器学习算法中,贝叶斯脊算法的性能最好。但具有集成学习的堆叠模型优于所有模型,在验证集和测试集中都产生了最低的MAE和MSE。其他广泛使用的模型,如XGBoost, SVM, MLP的性能不如默认参数下应用的三个模型(补充表S6)。验证集和测试集上的实际年龄和预测年龄的相关性如图2a、b所示。
图2 实际年龄与预测年龄之间的相关性
- 3.2 正常控制的相对特征重要性
我们计算功能连通性特征与年龄之间的相关性(补充图S4)。在所有6670个功能连接特征中,3196个特征与年龄呈正相关。3474个特征与年龄呈负相关。特别是中央前回-贺氏回的正相关最为明显。扣带中回和扣带旁回-顶叶下回负相关性最强,不包括缘上回和角回。此外,我们使用特征重要性来识别机器学习算法认为在大脑年龄估计中重要的大脑区域。将特征重要性值归一化,得到前20个功能连接特征(图3)。主要大脑区域包括小脑上侧和vermis8、内侧额上回和颞中回、杏仁核和壳核透镜体。这些脑区与大脑发育和萎缩有关,这与以往的研究一致。
图3 从贝叶斯脊模型中得到的前20个最重要的功能连通性特征
- 3.3 MDD患者加速脑功能老化
我们将MDD患者的脑PAD评分结果与保留验证集的对照组进行比较,以确定MDD患者的大脑衰老是否加速。总体而言,年龄偏差矫正前的脑PAD评分,对照组为1.3731 (SD 9.91)年,MDD患者为0.0712 (SD 10.56)年。应用年龄偏差校正程序后,MDD患者的脑PAD比正常对照组高 4.43年,如图4a, b所示。尽管通过不同的模型得到了不同的估计,但来自其他三个模型的结果都显示了一个一致的模式,即MDD患者的脑PAD评分在统计学上显著高于对照组。此外,GLM对年龄,年龄和诊断有显著的主效应,但不包括性别(表2A)。
图4 不同亚组的脑PAD
- 3.4 脑PAD临床特征比较
为了探索脑PAD评分与临床特征之间的关系,我们使用GLM将MDD患者的脑PAD与以下解释变量进行拟合:性别、用药状态、发作状态、受教育年限和患病时间月(表2B)。用药状态对MDD患者的脑PAD评分有主要影响(p = 0.023)。我们进一步应用双样本t检验来确定抗抑郁药物使用者与非药物使用者的brain-PAD均值是否存在显著差异(图4c, d)。抗抑郁药物使用者的brain-PAD比非药物使用者高2.09年(p = 0.0499, Cohen s d = 0.13452)。其他亚组(性别、发作状态)与对照组的比较见补充表S7。虽然在所有MDD亚组中观察到与正常对照组相比有显著差异,但在其他临床特征的脑PAD的事后比较没有显示MDD亚组之间有任何显著差异,除了药物状态。对于两个连续型临床特征(受教育年限和患病月份),我们根据中位数(本研究中均为12)对亚组进行脑PAD比较(补充表S8)。总体而言,受教育程度低于12年的MDD患者的脑PAD比受教育程度大于或等于12年的MDD患者高2.28年(p = 0.00679)。患病时间小于12个月的MDD患者的脑PAD比患病时间大于或等于12个月的MDD患者的脑PAD高1.69年。我们还分别计算了脑PAD评分与患病月份、受教育年限和HDRS评分之间的相关性。仅病程与脑PAD评分显著相关。
- 4. 讨论
生物衰老可以定义为涉及多个器官系统的渐进衰退过程。虽然所有个体按时间顺序衰老的速度都是相同的,但生物衰老的速度却因人而异。静息状态功能MRI是一种常见的方法,可以在不受任何先验假设限制的情况下检查大脑中无数的功能系统。基于功能连通性和大规模可靠样本的可用性的机器学习算法允许我们开发广义模型来估计个体被试的大脑年龄。在这里,我们利用来自中国的Rest-Meta-MDD联盟来验证MDD患者的大脑加速老化,这是之前在高加索参与者中观察到的结构MRI信息。我们应用基于功能连接特征的四种机器学习算法来估计整个成人寿命(12 - 82岁)的个体的大脑年龄。我们观察到1276例MDD患者明显加速了大脑衰老。此外,我们比较了MDD亚组之间的脑PAD评分,这些亚组根据临床特征(如用药状态和发作状态)划分。我们确认本文得出的结论不是算法敏感的,因为不同算法的结果都是相同的结论。
我们的研究得益于一个可靠的实验设计。该数据集包含24个队列,因此有效地避免了潜在的站点效应。我们没有使用一些独立站点的样本作为固定的验证集,而是随机选择所有站点的样本组成训练集和验证集。这样既提高了模型的可泛化性,也更客观地评价了模型的结果。此外,我们将正常控制分为固定训练集和保留验证集。我们比较了在这个保留验证集的对照组的脑PAD得分与测试集的MDD患者。由于验证集不参与大脑年龄预测模型的开发,因此有效地防止了过拟合的风险。四种不同机器学习算法的应用允许我们进一步验证观察到的模式的一致性。
我们的结果扩展了使用中国参与者的rsfMRI特征的MDD患者加速大脑衰老的普遍性。但是应该考虑到一些限制。虽然在聚合组分析前所有站点都采用了标准化的预处理管道,但仍有部分受试者在扫描中出现测量偏差和缺失值。我们通过对特性应用各种标准化方法来解决这个问题。虽然预测误差在可控范围内,但这些操作仍可能对最终结果产生影响。接下来,可以考虑使用多个脑图谱来获取功能连接特征。不同的功能连接将对后续的分析产生影响。此外,不同的特征和模型也可能对最终结果产生巨大影响。一些研究报告了多模态特征和深度学习算法在神经成像研究中的巨大潜力。未来需要更多的神经影像学特征和模型的比较,以得出更令人信服的结论。此外,Rest-meta-MDD的所有参与者都是中国人,我们的模型能否推广到其他民族/种族和文化背景还有待探索。最后,衰老是一个持续的过程,但目前很少有研究针对大脑衰老的纵向调查,包括MDD的阶段性分析,以探索脑PAD随年龄增长的趋势,以了解衰老过程的渐进影响。未来还需要更多的临床特征来确定测量脑PAD的临床意义,以及是否可以作为一种临床必需的生物标志物。