Biological Psychiatry：自闭症的神经亚型研究进展

一般认为，自闭症谱系障碍(ASD)的神经生物学基础是异质性。因此，研究分子、细胞和脑网络的变化是识别其生物标志物的先决条件。本文总结了基于数据驱动的在大脑结构和功能水平上识别更多ASD神经亚型的研究结果，。方法论步骤为：诊断样本的选择、神经成像特征、算法和验证方法。虽然研究方法各不相同，但普遍认为至少可能存在2-4种不同的ASD亚型。他们的识别提高了症状预测和诊断标签的准确性，超过了组平均比较。本文也指出了相关研究存在的挑战和差距：

1)需要收集更广泛、深入的诊断框架外的样本，同时尽量减少伪影(如头部运动)；

2)特征选择和多模态融合的定量和无偏方法；

3)更加强调算法捕获ASD混合维度和分类模型的能力；

4)整合多个尺度上不同分析单元的系统化复现和验证。最后探讨了解决这些挑战和差距的解决方案，以求对ASD异质性背后的机制有一个全面的理解。本文发表在Biological Psychiatry杂志。

前言

临床和病因的异质性仍然是精神病学生物标记物鉴定的主要障碍。本文关注自闭症谱系障碍(ASD)，它起病于儿童早期，具有显著的临床和生物变异性，以及不断增加的患病率，集中体现了精神病学在亚型方面的需求和挑战。

与其他以症状严重程度和共同差异为特征的精神障碍不同(例如，精神分裂症、情绪、焦虑)，自闭症的个体差异远多于核心诊断症状(即社交沟通技能受损和受限/重复的行为/兴趣)和相关的精神病理。自闭症通常伴随着发病类型、语言技能、智力能力和医疗条件的异质性，因此十分复杂。虽然ASD的行为表现的高度变异性已被认识到，但在过去40年中患病率的增加[从1966年的0.05%到2019年的~2%]可能进一步揭示了其异质性。一项荟萃分析显示ASD诊断组的效应大小平均差异随着时间的推移而减少，其异质性随着长期的病程进一步突出。发育轨迹、功能结果、和对治疗反应的剧烈变化证实了这一点。基因组学和神经生物学研究的进展也表明了ASD的复杂性，这些研究共同指出了多种病因途径。由此产生的临床和生物学ASD表现既是一个巨大的挑战，也是分型的动力。

亚型分类方法可以根据对个体之间的差异进行索引的分析单位和用于将个体分类的算法的性质来描述。分析的目标单元可以归类为行为和生物学。以行为为基础的单位是潜在变异性的间接指标，反之亦然。不管分析的单位是什么，量化的亚型分类算法可以大致分为有监督(即标签驱动)、无监督(即数据驱动)或它们的混合。这些方法利用单变量或多变量统计数据方法，每种方法各有优缺点。

在ASD中，直到最近，行为一直是主要的分析指标。虽然这些结果已经捕捉到了自闭症的相关临床区别，但他们的发现既不详尽，也不能可靠地区分。因此，DSM-5和最新版本的ICD已经退回到ASD单一诊断类别。这强调了：1)需要更详细的行为表型和2)在识别与病因学和/或病理生理学相关的生物学特征的亚型方面存在很大差距。在其他医学领域，生物亚型的检测有助于更早、更准确的临床诊断、治疗选择和结果监测。

ASD的不同病理生理学和病因仍有待充分研究。然而，由于遗传因素对ASD有关键贡献[遗传率：0.69-0.83]，基因组分析引导了旨在确定ASD潜在病因和/或病理生理学的研究。特别是在过去的十年中，结果表明，常见的多基因变异和罕见的变异都会增加ASD的风险。值得注意的是，全外显子组测序研究已经确定了数百个基因，其中罕见的且大多是从头开始的变异具有较高的诱发ASD的风险。分子途径主要被归类为突触功能、染色修饰或转录调节。因此，出现了遗传学优先的方法，即以特定的基因型代表亚型。虽然这种方法的前景被看好，但它面临着几个障碍，包括常见和罕见变异之间的不同外显率，任何单一变异/突变的低流行率，基因型到表型的高度变异性，以及独立风险基因之间不同程度的时空收敛性。因此，仅基于遗传方法发现临床相关亚型是具有挑战性的。

研究人员开始探索将数据驱动的亚型策略与生物分析互补，关注于一系列大脑功能的生物物理指标，包括神经成像，探测大脑结构和功能的宏观组织。越来越多的证据表明，神经成像在捕捉ASD中的非典型脑组织方面有潜在的用途。虽然研究结果的差异可以归因于方法学上的混乱(例如，样本大小、运动伪影、测量噪声)，但人们越来越意识到神经生物学差异在ASD神经相关性中的潜在贡献。这促使了旨在根据神经影像特征识别ASD亚组(以下称为神经亚型)的研究。

数据驱动的ASD 神经亚型

目前的ASD神经亚型文献还处于初级阶段，总共有12项人类研究，92%是从2018年开始发表的。研究方法各不相同(图1和表1)。研究结果显示存在2到4种ASD神经亚型。每种方法有不同比例的被试，传统的病例-对照分组方法可能会遗漏给定样本中代表性较低的亚型的信息，造成组分析结果明显不一致。大多数研究将神经亚型与临床行为特征联系起来，从而支持其可能的临床有效性。本文总体框架如图2。

图1 自闭症谱系障碍(ASD)的最小重叠神经亚型研究设计。当前ASD神经分型研究的研究设计以矩阵形式显示。列表示用于给定子类型算法的特征域。行表示用于验证的特性域。饼状图提供了关于所使用的算法的子类型方法的可变性。

图2 神经分型的关键方法步骤

诊断样本

在12个ASD神经亚型研究中，7项(59%)将确诊的ASD个体与神经正常(NT)个体进行分类，3个将ASD和NT数据一起检查，只有2项研究检查了跨诊断标准的样本。仅仅关注ASD，可以对ASD神经亚型进行简单的检测，从而作为临床生物标志物。然而，由于异质性在NT个体中也存在，建议至少对ASD数据进行标准化。三项研究对指标进行了归一化[即结构特征和内在功能连接性(IFC)的z分数]。其他研究假设在人群中，除了不同的神经亚型，ASD相关的病理生理学也会发生，并与之相互作用，因此对ASD和NT数据一起进行分型。2项研究将ASD与其他精神疾病-精神分裂症谱系障碍、双相情感障碍、注意力缺陷/多动障碍和NT个体相结合。

研究结果表明ASD神经表型的变异跨越了诊断界限(表1)。例如，Stefanik确定了4种亚型，每种都有不同患病率的多重诊断，并具有不同的解剖学特征。跨诊断标准的共性可以由不同的情况产生，包括相加或多重机制。这可以通过广泛和深入表征的大样本进一步研究，以检查连续的心理和生物维度。目前，ASD神经亚型研究的样本量从44到900 不等。表2总结了可用的数据集。

特征选择

除了2项脑电图(EEG)研究外，所有的研究都集中在单一的神经成像方式上，主要是结构或功能磁共振成像。特征的类型和数量各不相同(例如，iFC、EEG相干性、皮质厚度、平均弥散率)(表1)。特征的高度变化反映了建立一组最佳变量的挑战，以及关于哪些特征与ASD最相关还不清楚。主要基于数据可用性和/或先验知识来选择特征。只有一项研究使用定量的方法进行特征选择，根据区分ASD患者和NT患者的准确性选择40个脑电相干因子，对它们进行聚类。该方法可以归类为特征过滤的筛选方法，一组基于相关性选择特征的方法。虽然在计算上高效，但分别评估每个特征，忽略了特征间的依赖关系，也可能导致选择次优因素。为了解决这一限制，其他方法根据对感兴趣的特定问题的有用性来选择特征，这些方法被称为包装器(如顺序搜索)或嵌入式(如随机森林)方法。这些方法尚未应用于ASD神经亚型研究。

特征选择的关键是数据简化。尽管理论上需要具有大量的深度特征化样本以跨多个模态进行探索，但特征维度比被试更多的数据会产生不适定的问题。许多算法依赖于量化数据点之间的距离。随着维度的增大，点间距离变得更难辨别。到目前为止，只有两项研究解决了这一挑战，一项是通过主成分分析(PCA)，另一项是通过非负矩阵因式分解。

【注：适定问题是指定解满足下面三个要求的问题：① 解是存在的；② 解是唯一的；③ 解连续依赖于定解条件，即解是稳定的。这三个要求中，只要有一个不满足，则称之为不适定问题。】

目前ASD的研究集中在单一神经成像方式上，没有一项研究将神经成像与行为或其他生物学指标相结合。一个例外是多维标度方法的变体，相似网络融合，将人口统计学、脑成像和行为数据相结合。在检测到所有指标对上的被试间距离后，该方法将这些距离联合嵌入到较低维子空间中。尽管此方法很有帮助，但需注意其对高维数据的可扩展性，以及对噪声的敏感性，因为它为各因素分配了相等的权重。

为了能够定量选择最相关的特征，有两种混合方法有望应用。一种是功能随机森林(FRF)，另一种是替代变量分析(SVA)。FRF将随机森林(有监督)与社区发现(无监督)相结合。简而言之，FRF生成决策树，其中每个叶节点包含与感兴趣变量高度相似的个体。这些信息构建了一个邻近度矩阵，该矩阵又被反馈到社区发现中。最近的研究使用FRF，根据ASD儿童和NT儿童的认知表现确定了亚型。相反，SVA尚未应用于ASD或亚型。SVA（替代变量分析）最初是为了消除基因组数据中批量效应的未知源而开发的，它结合线性回归(有监督)和主成分分析(无监督)来识别和分解混乱源。这两种方法都需要为亚型分析选择适当的相关问题。如，神经连接体亚型是否反映了不同的遗传特征、治疗反应或共病风险。

多维学习方法解决了相似网络融合的可扩展性限制，包括广义典型相关分析，联合和个体变异解释（JIVE）。广义典型相关分析是主成分分析和线性回归的推广。它共同学习使所有维度对之间相关性最大的每个维度的低维表示(即，相似性矩阵)。优点是它为每个特征生成不同的权重。JIVE识别跨数据类型的方差分量及其唯一变化。因此全面描述了数据类型内部和之间的多源异构性。这两种技术还没有用于神经亚型，但最近的神经成像研究支持它们在预测大脑与年龄和行为的关系，以及抑郁症相关连接的低维表示方面的应用。

对于特征选择应该解决一些问题。一种是数据遗漏，这在特征选择和分类类型相互依赖时发生，从而造成过拟合。任何严格的交叉验证算法都可以通过将数据分成训练和测试集来规避此风险。另一问题涉及伪影(如头部运动)的不可靠性(例如，跨扫描、会话和/或扫描)。这引发了人们对“垃圾输入，垃圾输出”的担忧(低质量的特性会产生无效和/或不可重现的结果)。即使控制到0.2mm的头动，也会对高分辨率神经成像研究产生一定的数据质量的影响，因为它们可以系统性地影响功能、结构和弥散神经成像的结果。许多实验室已经开发出限制数据收集中运动的方法，以及检测和分析性地减轻其剩余影响。

此外，在可靠性方面有时没有进行适当评估或优化。这增加了所需样本的大小，并严重限制了个体水平的分析。目前的研究已经检查了一些具有中到高度可靠性的特征[如皮质厚度]。其它指标的可靠性仍未知(如灰质/白质强度对比度)。应优化数据采集和分析以提高可靠性。例如，在功能连接中已经证明，将数据采集从每个被试的~5分钟增加到30分钟，即使将跨不同功能磁共振成像扫描类型的数据组合在一起，也能显著提高可靠性。

算法

ASD的数据驱动神经亚型分为三种方法。两种方法为完全无监督的方法，如聚类法(n=7)和潜变量分析法(n=2)，第三种方法是规范建模(n=3)。

将数据划分为多个群集，使得样本彼此之间比其他群集中的样本更相似。反映了k-均值聚类(注：一种基于质心的方法，根据数据点与每个群集的质心的接近程度迭代地分配各个数据点)的普及性和相对计算简便性，3个研究已经使用了这种类型的聚类。其他使用了分层聚类的变体。与k-均值不同，分层聚类不需要事先指定类别号。使用分层聚类，树的每个分支都跟踪一系列渐进的聚类过程，完全捕获嵌套的分层数据结构。这有助于解释多个尺度上的神经亚型。另一方面，k-Means只需要为数据拟合几个边界，而分层聚类需要学习更多的边界，这可能会导致次优的结果。

关于潜变量分析，最近的两项研究借用了自然语言处理中的主题建模技术。这些模型假设每个单词（个体大脑)是与k个潜在主题(k个大脑因素)的子集相关的单词(神经成像特征)的集合。自动将高维的个体数据汇总成潜在结构的组合。通过这种方式，允许每个个体不同程度地表达多种潜在的大脑因子，反映了不同的潜在病理。这种方法的优势在于它定量地描述了ASD异质性的范畴和维度两个方面。

关于规范建模，通过估计给定人群中大脑指标的变异分位数，在统计上推断出每个个体与规范模式的偏差。识别分布中极端情况，找出明显更容易与所有其他人分开的亚型。已有3项研究采用了这种方法，聚焦于皮层厚度或α脑电波。结果表明，ASD和NT个体之间的差异很大程度上是重叠的，只有一部分个体表现出高度的大脑异型性。此方法突出了每个人的偏差分数，而不是群体平均值，这一概念符合精准医疗。使用这种方法需注意，估计高维分布需要随着维数的增加而呈指数级增长的数据点数量。因为这不能在神经成像数据的原始维度中完成，所以相对于不需要估计全部分布而只需要估计空间分区的其他算法，必须选择较少数量的特征。因此，选择合适的特征对于规范建模更为重要。

验证

无论采用哪种特征或分类算法，都会做出一系列假设并估计参数。因此，没有一刀切的解决方案。目前已经使用了一些方法[如Davies-Bouldin指数]。其他人通过评估解决方案的稳定性(跨独立子类型算法或通过自举)间接验证。到目前为止，只有2项研究评估了不同算法研究结果的收敛性，4项研究使用了Bootstrapping，所有研究都报告了稳定性。

不同的解决方案都具有意义，因为这样做可以捕获数据的不同方面的变异。因此，一种常见的样本内验证方法是证明确定的神经亚型在其他指标上的可解释变异。目前的文献中，验证方法主要是基于临床和人口统计学指标。初步结果表明，神经亚型的识别可能会比群体平均结果更好地解释关于症状严重程度或诊断标签的大脑行为关系。有四项研究使用了独立的神经成像方式，通过区域结构特征确定的神经亚型，用大脑连通性指标进行验证。这些研究指出特定神经亚型与区域和大规模脑组织之间的联系。

ASD神经亚型的临床相关性验证存在的一个挑战是评估它们与临床结果的关系。这种方法的实用性已经在阿尔茨海默病和抑郁症中显示出来。使用纵向数据集可以评估亚型解决方案随时间的稳定性，发育稳定的亚型可能代表疾病特征的异质性。相反，不稳定的亚型可能反映发育阶段和/或疾病进展的变化。在ASD中，没有纵向数据用于数据驱动的神经亚型研究。这反映了数据获取的有限，这应该是未来必须关注的问题。同时，可以进行横断面的初步调查。

此外，由于神经成像数据收集的合规性要求，在很大程度上没有包括认知能力较差的个体。未来的研究必须投资于更多的数据收集协议，包括自然睡眠扫描，被动观察，扫描行为准备，以及前瞻性地解决头动的技术进步。与自闭症密切相关的另一个挑战是男性个体比例失调。虽然与性别相关的差异可能导致ASD的生物学异质性，但男性ASD患病率较高，以及研究排除或最低限度代表女性被试的倾向，可能会限制神经亚型的泛化。幸运的是，明确扩充招募女性被试的前瞻性研究仍在进行中，大型数据库正在积累更多的女性数据。

与任何临床有用的生物标志物一样，高精确度(低假阳性率)、召回率(低假阴性率)和可重复性(用类似方法在不同样本中获得相同结果的程度)是关键的。不幸的是，包括神经科学和心理学在内的许多领域目前正在经历可复制性危机。有两个因素对此有影响：样本大小和测量可靠性。提高可复制性的统计策略包括bagging，通过平均来聚集随机选择的子样本以降低测量变异性。通过对数千个Bootstrap样本运行聚类算法，类似的思想也可以应用于神经亚型。对bootstrap派生的聚类进行平均得到一个一致矩阵，表示一对个体分组在一起的一致性。这带来了很高的计算成本，可能还会带来可解释性方面的成本。且bagging不能克服样本总体的限制，例如，如果是一个有偏样本，简单的bagging不会减少偏差。更复杂的分层重采样技术可以减轻这些偏差。

可复制性也受到数据集带来的高方差的影响。这可以通过基于PCA的数据重建方法或ComBat来解决。ComBat最初是在基因组领域发展起来的，它基于一个线性模型，该模型将位点作为主要的(加法和乘法)统计术语。该模型基于统计校正来减少位点效应，并重建最小化的位点效应数据集。与传统的基于回归的校正相比，ComBat在小样本情况下对异常值的鲁棒性更强，因为它使用经验贝叶斯方法来估计位点/时间收集效果。显著性加权PCA是另一种方法，它对整个图像执行PCA，然后计算每个分量相对于位点的统计显著性。最初的应用在ASD非亚型研究中成功地获得了位点可变的加权子网。

未来研究方向

迄今为止ASD的神经亚型研究尚处于初步阶段，但在研究结果上开始出现一些趋同。首先，到目前为止，大多数研究都发现了ASD相关的神经影像特征的增加或减少。其次，不管检查什么特征，没有亚型表现为空间孤立(局灶性)模式。在这一点上，默认网络和额顶网络内的一组区域始终与神经亚型有关。鉴于ASD的高级社会和认知过程受到影响，我们认为这些网络的共同参与可能是ASD核心症状共同损害的基础。这些网络内的非典型性的亚型特定模式可能会不同地影响症状严重程度和表现。另一方面，非典型性涉及零星的跨神经亚型的其他网络(例如，视觉和背部注意网络)，其程度可能与共病症状的个体间差异有关。要验证这一假说，需要将神经成像与ASD核心症状和合并症症状的表型特征相结合。

ASD神经亚型中神经异型性的分布特性指出了影响大规模大脑组织的机制。因此，脑连通性的指标(例如，iFC、结构协方差、EEG一致性)可能更直接地引导ASD异质性的生物学基础。ASD的非典型连通性存在多种模型，包括长距离减少与短距离增加，模块内与模块间的不平衡，向皮质-皮质下的非典型移位，以及特殊的连接性。最近提出可使用非典型的皮质连接体层次结构来概括上面的大多数模式。在神经亚型的背景下测试这些模型可能会更深入地了解ASD异质性与它们的生物学相关性。

鉴于遗传学的前期研究，我们不能保证神经亚型会直接映射到行为异质性上。不同的单基因突变(或它们的子集)可能通过在从蛋白质到大规模环路的一个或多个分析水平上聚合而导致相同的行为结果。类似地，特定于神经亚型的功能障碍的大脑回路，可能来自不同的细胞通路，而这些通路又可能对应于不同的基因，每个基因都有不同的空间和发育表达。

剩下的挑战是将宏观的大脑现象学与微观的潜在机制(即细胞、分子和遗传)联系起来。虽然ASD影响的认知和社会交流领域是人类特有的，不能用任何动物模型全面概括，但利用适于遗传操作的模式生物进行研究，提供了跨越不同尺度的方法。已建立了在患有ASD的人类中观察到的一种遗传变异基础上的猕猴模型，而在实验室小鼠中可以获得更多的模型。在26个小鼠ASD遗传模型上的形态解剖脑图谱已经识别出三种神经亚型，影响着不同的大脑区域，在看似不相关的ASD突变上具有共同的模式。最近在小鼠身上实施的静息状态功能磁共振成像也提供了将这种方法扩展到功能网络的可能性。

未来的神经亚型方法将受益于候选生物标记物的发现。例如，对蹒跚学步儿童的眼球跟踪研究表明，对几何刺激的非典型优先注视是患有自闭症的特征。该指标可以在多模式聚类方法(如具有眼动跟踪的神经成像)和/或用于神经亚型的独立验证的背景中使用。类似地，正在进行的大规模评估标志物的可行性和稳健性的结果可以丰富神经亚型，诸如在倒转面部处理时诱发的N170的延迟潜伏期、在亲子交互期间的行为视频跟踪、以及在社交动态场景期间的眼睛注视和/或瞳孔测量。

总结

随着神经影像学和计算科学的进步，人们已经从多个尺度发现了ASD的异质性，促进了对其神经亚型进行分类的研究。本文从方法论方面，系统总结了该领域的研究现状，包括样本的选择、神经成像特征、算法和验证方法，也总结了现有的相关数据库，非常具有参考价值。目前该领域的分型研究仍处于初步阶段，本文提出了一些未来可用的研究方法和思路，但也提出了很多待解决的瓶颈问题。包括需要更大的数据集、更广泛和更深入的表型，以及以高度可复制性有效捕捉ASD异质性的混合范畴和维度性质的先进分析模型。

分类算法编程算法数据库 sql 数据分析

0 人点赞