摘要
精神疾病是复杂的,涉及不同的症状学和神经生物学,很少涉及单一的、孤立的大脑结构的破坏。为了更好地描述和理解精神疾病的复杂性,研究人员越来越多地将多元模式分类方法应用于神经成像数据,特别是监督机器学习方法。然而,监督机器学习方法也有独特的挑战和权衡,需要额外的研究设计和解释考虑。本综述的目的是提供一套评估机器学习应用于精神障碍的最佳实践。我们将讨论如何评估两种共同的努力:1)作出可能有助于诊断、预后和治疗的预测;2)询问精神病理学背后复杂的神经生理机制。我们在这里重点讨论机器学习应用于功能连接与磁共振成像,作为一个基础讨论的例子。我们认为,为了使机器学习分类对个体水平的预测具有转化效用,研究人员必须确保分类具有临床信息性,独立于混杂变量,并对性能和泛化性进行适当评估。我们认为,要想揭示精神疾病的复杂机制,需要考虑机器学习方法识别的神经成像特征(如区域、网络、连接)的独特效用、可解释性和可靠性。最后,我们讨论了大型、多站点、公开可用的数据集的兴起如何有助于机器学习方法在精神病学中的应用。
1. 简述
监督机器学习使用学习算法(如支持向量机)识别多元特征(如功能连接)和受试者标签(如患者vs健康对照受试者)之间的关系。当应用于精神病学时,训练标签通常是不同的诊断(例如,妥瑞氏综合症vs.健康,tic-free),但也可能是患者体内的不同状态(例如,抑郁vs.缓解)或不同的任务条件(例如,看到快乐vs.恐惧的脸)。许多监督学习算法(例如,k-最近邻,支持向量机,决策树)以不同的方式结合跨特征的信息。算法的选择取决于很多因素,包括研究问题、数据类型和训练数据的性质。一般来说,机器学习过程包括训练(即特征选择、特征权重优化和交叉验证)和测试(即模型性能、模型泛化性)。根据标签对训练集中的个体进行最佳分类的特征模式进行加权,并将其组合到一个结果分类器中,该分类器可以应用于测试阶段的一组不同的个体。虽然分类器通常意味着一个二元模型(例如,病人或健康的控制对象),这里我们使用分类器来描述任何训练的多元模型(例如,二元、分类或连续)。有关监督机器学习策略的一般程序及其在神经成像数据中的应用的综述,请参见图1和其他综述。
图1 机器学习成分和步骤大观
2. 第一部分:评价机器学习对精神障碍的预测
机器学习很好地解决了精神病学的一个主要目标:对单个患者进行预测。例如,一个给定的的孩子会发展成精神障碍吗?A疗法还是B疗法对这个病人更有效?在大多数情况下,这种临床应用水平尚未达到。阻碍临床应用的障碍,基于神经成像的分类器包括不超越已知信息(如当前诊断)的分类器预测、分类器性能的模糊指标、对未来数据集的模型泛化性差,以及与混杂变量相关的预测。下面,我们将讨论这些挑战以及促进旨在开发临床相关多元分类器的研究的建议。
2.1临床信息化的训练标签
将监督机器学习方法应用于精神疾病研究的早期工作已经提供了一个可靠的概念证明,可以从同期的神经成像数据预测已知的患者特征(如诊断、症状严重程度)。例如,我们和其他人已经证明,功能连通性可以通过对一些精神疾病的诊断(即患者vs.健康对照组)成功地对个体进行分类,这些精神疾病包括注意缺陷/多动障碍、自闭症、抑郁症、精神分裂症、图雷特综合症。此外,预测个体的年龄或其他规范性特征可能具有临床意义。就年龄而言,许多精神疾病都有发育的起源,并且通常被解释为发育的进展[例如,大脑不成熟]。这种解释导致了一些研究问题,旨在将偏离规范发展轨迹的行为理解为精神病理学的风险因素。因此,预测患者的发育状态可能会阐明疾病的特征,特别是当它涉及非典型大脑发育时。一些典型发展的研究表明,功能连接模式可以成功预测一个人的年龄。利用这些结果,我们发现一个经过训练的分类器可以预测典型发育的年龄,可以解释图雷特综合征儿童和成人的非典型发育。此外,根据不同情境下(休息、内隐积极/消极情绪任务)的功能连通性预测大脑年龄,已经将个体在扫描仪之外的危险行为联系起来。
当然,仅对已知特征进行分类,如个人的诊断状态,并不具有临床效用。因此,越来越多的文献将机器学习方法与前瞻性成像研究相结合,在前瞻性成像研究中,在识别行为或症状(如,在治疗结果或临床诊断前),以确定神经影像学特征是否可以预测后续诊断、预后或治疗效果。一些前瞻性收集功能连通性数据的研究已经能够预测未来的精神疾病结果。例如,功能连接被成功地用于分类哪些6个月大的高风险自闭症婴儿随后在24个月时被诊断为自闭症,并预测哪些寻求药物滥用治疗的个体随后完成了强化康复项目。
另一个重要的问题是,单凭诊断可能无法完全捕捉到精神疾病的异质性,这可能导致临床分类器信息量不足。因此,包含精神症状亚组或维度的分类或持续训练标签[例如,研究领域标准]可能产生更好地代表潜在症状的分类器。此外,无监督学习策略可以提供额外的临床效用,识别具有分类不同的神经影像学特征的新亚组患者。这些亚组可能表现出不同的治疗结果或症状轨迹。例如,使用无监督机器学习和功能连接产生的抑郁症亚型随后能够预测对经颅磁刺激疗法的反应。
2.2表现和泛化
分类器的成功通常是通过测试一个分类器如何预测从未用于训练的一组个体的标签来评估的,无论是不同折交叉验证还是在一个独立的测试集中(图1)。对于二进制或其他分类器,经常报告总准确率(正确标记的患者和健康对照受试者的百分比),但可能不足以反映分类器的表现。分类器偏倚(例如,将所有个体分类为患者)和不平衡训练集(例如,75%的患者,25%的健康对照受试者)会混淆二进制分类器(例如,患者与健康对照受试者),准确地分类超过50%的个人在测试集中,实际上比运气更好。非参数测试,如排列测试(即对训练集中的标签进行随机化),可以建立一个适当的空值,用于评估分类器的性能是否优于随机测试。
对于回归模型,成功的度量标准包括预测的数值准确性(例如,均方误差)和预测的关系准确性(例如,R2)。如果对特定个体的准确预测感兴趣(例如,识别易受精神病理学影响的个体),则应使用量化预测数值准确性的指标。另外,如果对样本方差的预测感兴趣(例如,确定治疗反应的方差是否反映在神经影像学数据中),量化相关准确性的指标是足够的。在评估二元或分类分类的准确性时,可以用置换测试来评估回归模型,以建立一个适当的零值来表示预期的误差率。
除了评估性能外,确定一个训练有素的分类器能多好地概括来自新个体的数据也很关键。通过交叉验证对绩效进行评估是合理的第一步,但单靠它还不足以证明其通用性。重要的是,为了避免性能度量的膨胀,所有用于训练分类器的过程,如特征选择、模型选择和参数优化,应该只在训练集中进行,并在交叉验证的折中单独进行。对于大多数研究来说,在开始时留出一组测试对象,用训练集中的数据构建分类器,然后报告测试集中分类器的性能,从而提供泛化性的证据是可行的。最终,最好使用独立收集的验证集进行外部验证。
在某些特殊情况下,较差的泛化可以提供疾病本质的信息。在之前的工作中,我们训练了一个分类器来区分图雷特综合症儿童和功能连接的健康对照受试者。该分类器可推广到儿童的独立测试集,但不能推广到成人的独立测试集。同样,经过训练的用于区分成人图雷特综合症和健康对照受试者的分类器也不能准确地对儿童进行诊断。在不同年龄组中,较差的通用性表明,不同的功能连接模式是儿童期和成年期图雷特综合症的基础。因此,跨样本分类器可以阐明精神疾病的非典型功能连接的性质。
2.3混杂变量
在评估分类器时,另一个重要的问题是所得到的预测是否被其他不感兴趣的变量所混淆。例如,在功能连接数据中,一个有问题且经常观察到的混杂变量是扫描器中的头部运动。扫描仪中的运动(甚至是毫米以下)已被证明与若干人口统计学变量(如身体质量指数、吸烟、教育)、行为和认知能力(如流体智力、情绪识别、词汇、空间定向)以及阈下临床症状(如,冲动,反社会,躯体感觉问题)强相关。机器学习算法对任何区分特征都非常敏感,因此,诊断分类器可能检测到与运动相关的功能连接差异,而不是或不仅是紊乱相关的差异。幸运的是,有几种策略可以帮助缓解这些影响。首先,在数据收集期间减少头部活动量的策略包括实时运动监测、行为干预和稳定填充。其次,处理策略已经被开发出来并进行了基准测试,以减少功能连接中与运动相关的伪影,对于缓解组间运动差异特别有用。最后,在训练集中匹配组之间的头部运动量(即使在运动去噪之后)降低了头部运动被分类器使用的可能性。我们用来评估头部运动影响的一个策略是有意识地训练分类器来预测头部运动的个体差异。我们证明适当的运动去噪会显著影响头部运动分类器的性能(去噪前:R2 = .50,去噪后:R2= .04)。由于头部运动也会影响体积、神经束造影和任务诱发脑估计,当使用机器学习与其他神经成像数据,以及其他潜在的混杂变量(如扫描仪序列、数据量)时,这些影响应该得到充分解决。
3. 第二部分:评估机器学习揭示的神经机制的解释
除了预测,研究人员还希望机器学习可以深入了解精神疾病背后复杂的神经机制,揭示哪些区域、连接、网络或其他神经成像测度被破坏。确定所涉及的特定神经回路,这些特征是如何受到影响的,以及中断与症状严重程度或脆弱性之间的关系,有可能为治疗目标提供信息。一般来说,有两种方法用来询问哪些特征可以对精神障碍进行分类:特征选择和特征权重询问。在解释这些方法的结果时,重要的是要考虑所识别的神经成像特征集(区域、网络、连接等)的独特效用、可解释性和可靠性。下面,我们为使用机器学习技术推断神经机制提供建议。
3.1一组特征的独特应用
许多机器学习方法都涉及特征选择。所得到的简化特征集经常被报告、可视化,并被解释为分类基础的原型特征集,因此该障碍得到研究。然而,在推断特定的特性是一种紊乱的特征之前,比较这些特性的性能和适当的null的性能是很重要的,因为这些特性的效用可能不是唯一的。例如,当研究机器学习和功能连接的典型发展时,我们使用一种常见的、数据驱动的策略来选择与年龄单变量关系最强的功能连接(即特征排名)。使用这种特征选择策略进行年龄预测相当成功(前1000个特征的R2 = 0.45)。然而,这种性能并不是所选连接所特有的,因为使用随机选择的连接训练的分类器预测年龄同样是成功的(平均R2 = 0.42 6.05)。在这项研究中,排名靠前的特征(通常被解释为最重要的特征)的表现并不比随机选择的特征更好。这个结果强调了使用简化特性集的分类器性能必须根据适当的空值来评估,以声明这些特性的唯一效用。
另一种方法,假设驱动的特征选择,涉及比较使用不同先验特征集(例如,来自特定网络的功能连接,如默认模式网络)的分类器之间的性能。这种比较除了前面讨论的对null的评估外,还需要仔细考虑特性集之间的潜在混淆。我们比较了在典型发育(回归模型)(图2A)、妥瑞氏症诊断分类(二值模型)(图2B)、图雷特综合症患儿和成人的分类(分类模型)(图2C)。虽然在每种情况下网络的性能都有所不同,但性能与网络规模高度相关,即用于训练的特征数量(例如,默认模式网络最大,性能最好)。同样,当使用随机选择的功能连接进行训练时,无论网络身份如何,性能都随着特征数量的增加而增加。因此,我们无法确定某些功能网络是否由于其身份或其规模而承载更多相关信息。特征数量是一个例子,但是当使用先验特征集比较分类器的性能时,必须仔细考虑其他潜在的混淆因素。
图2 使用不同功能网络的特征进行分类器的比较受到特征数量的干扰。
3.2特征加权可解释性和可靠性
另一种用于调查在一种疾病中哪些特征最受影响的方法是特征权重询问,在这种方法中,分类器检查的特征被强烈加权。然而,特征权重的可解释性并不总是直接的。首先,特征权重可解释性在不同的学习算法中是不同的,这取决于特征如何组合。线性回归、支持向量机和人工神经网络(即深度学习)都涉及特征的线性加权,但它们在非线性步骤的数量上有所不同(支持向量机:类损失惩罚;深度学习:隐藏层,激活功能)。有一个权衡(参见图1 Bzdok和埃尼迪斯],与添加非线性模型能更好地适应复杂的训练数据,但来自这些模型特征权值不容易映射到消化的底层机制的描述(例如,增加/减少功能连通性的病人)。此外,在描述训练数据时,这种额外的复杂性可能是不必要的——深度神经网络(更复杂)和核回归(更不复杂)在行为和人口统计数据的功能连接预测方面达到可比较的准确性。其次,训练有素的分类器的特征权重反映了多维模式,因此,考虑个体特征权重是不合适的。分类器的性能依赖于所有选择特征的组合,从最强加权到最弱加权。虽然确定强烈权重的特征是否由生物学原理组织(例如属于某个特定的功能网络)可能具有启发意义,但这些特征不应被解释为负责分类/预测的唯一功能连接。
4. 传统单变量与机器学习方法
对于某些研究问题,多元机器学习方法比传统的单变量方法有显著的进步。通过结合许多特征的信息,机器学习方法通常可以检测到传统单变量方法无法检测到的神经成像数据差异。使用标准统计方法测试数千个功能连接之间的差异可能过于保守,需要多次比较校正。此外,机器学习方法在那些旨在对单个个体进行预测而不是描述整个群体的集中趋势的工作中占优势。这些方法与早期诊断和个体化治疗的精神病学目标相一致。
并不是所有的问题都最适合机器学习。虽然机器学习方法非常适合分类和预测,但它们只能间接测试关于神经生物学机制的假设。理论上,机器学习方法提供了一种公正的方法来识别精神疾病中受损的大脑机制。然而,机器学习算法重视的是效用,而不是用于分类的特征的相关性,也就是说,一个特征可能与精神疾病相关(例如,(患者和健康对照受试者之间的差异),但带有冗余信息,降低了任何单一特征对多变量分类的效用。因此,分类器的特征权重不是设计来的,也不一定揭示受精神疾病影响的大脑特征的完整图像。传统的统计单变量(或多变量)方法(如t检验、方差分析、线性回归)在可解释性方面占优势,可能更适合于理解潜在机制是主要结果的研究问题。然而,仔细使用机器学习方法可以洞察非典型大脑特征的本质,为未来使用传统统计方法的研究提供假设。
5. 结论
在这篇有针对性的综述中,我们讨论了机器学习如何成为一种有用的工具,用于识别多变量数据中的模式,这些模式有可能帮助诊断、预后和治疗,并揭示潜在的精神病理学的复杂机制。只有遵循最佳实践,才能实现这些目标。最具临床应用前景的分类器将是能够成功地对新的、独立的数据进行归纳并不依赖于混淆特征的分类器。虽然我们的讨论都集中在功能连接磁共振成像的例子,这里提出的几点适用于其他神经影像措施甚至非神经影像数据共享关键的特征,如大量的功能(例如,基因,微生物,血液生物标志物)或试图结合许多不同类型的数据。应用最佳实践,提高泛化和可复制性的可能性,减少混淆的潜在影响,并提高数据的可解释性,将有助于机器学习方法以信息丰富和有用的方式推动该领域向前发展。