Science Advances：基于生成式机器学习揭示自闭症的基因-大脑-行为联系

摘要：自闭症传统上是通过行为进行诊断的，然而它具有很强的遗传基础。以遗传学为优先的方法能够改变对自闭症的理解和治疗方式。但是，将基因 - 大脑 - 行为关系与混杂的变异来源分离开来是一项极具挑战的任务。我们展示了一种名为基于 3D 运输的形态测量法（TBM）的新技术，该技术可用于提取与 16p11.2 区域的遗传拷贝数变异（CNV）相关的大脑结构变化。我们确定了两种不同的内表型。在来自 Simons 个体变异项目的数据中，这些内表型的检测使得仅从脑图像预测 16p11.2 CNV 的测试准确性达到 89%至 95%。此外，TBM 能够直接可视化内表型，从而推动实现准确预测，揭示出缺失和重复携带者之间存在剂量依赖性的大脑变化。这些内表型对发音障碍较为敏感，并能够解释部分智商的变异性。遗传分层与 TBM 相结合能够揭示许多神经发育障碍中的新脑内表型，加速精准医学的发展以及对人类神经多样性的理解。

1. 引言

自闭症是一种复杂的疾病，由遗传和环境因素共同导致。它的特点是社交互动、沟通和重复行为受损。自闭症是通过行为诊断的，这强调了我们目前的理解并为治疗提供信息。然而，自闭症也有很强的遗传基础，最近的遗传性估计高达 90%。遗传学优先的方法可能有助于更好的亚型患者，了解自闭症的起源，并开发有针对性的治疗方法。然而，今天，只有不到一半的自闭症患者接受了基因检测。

最近，已鉴定出许多与自闭症相关的新基因，其中拷贝数变异（CNV）具有相当大的相对风险。超过 200 个 CNV 与自闭症有关。这些 CNV 主要在母体减数分裂期间以新生突变的形式出现，其中一部分代表遗传性种系突变。一个重要的CNV是16p11.2。在人类从非人灵长类动物进化的过程中，该区域经历了正选择，导致大脑大小和形状随之变化。16p11.2 缺失使自闭症或发育迟缓的风险增加38.7倍，而重复则使风险增加20.7倍。然而，该区域对大脑的确切体内影响仍然是一个谜。鉴于 16p11.2 区域是自闭症最普遍的单一遗传因素之一，我们将该区域作为开发研究基因-大脑-行为关系的方法的模型。

CNV如何影响行为表型通常知之甚少。为了弥合遗传学和行为之间的差距，我们研究了内表型的概念。内表型是可以客观定义并遵循不同发育轨迹的中间性状。然而，自闭症患者的脑结构成像通常是正常的。最近的论文使用功能磁共振成像和电生理学来进一步对自闭症个体进行亚型分析，但这些方式在专业研究环境之外并未广泛使用。将 CNV 对大脑结构的影响与其他混杂的变异来源区分开来是一项持续的挑战。现有的脑形态测量技术已经能够在 CNV 队列之间进行群体水平的比较，但不够敏感，无法区分 CNV 特异性影响与其他变异原因。这些研究使用了区域体积、基于大脑表面的分析和基于体素的方法。此外，这些研究中的大多数检查了一组有限的数字指标。即使可以检测到它们之间的特定统计差异，除非相应的模型是可逆的，否则它们没有直接的生物学或物理意义。然而，如果可能的话，那么将 CNV 与大脑结构变化和后续行为联系起来的能力将代表精准医学的重大进步。

新的机器学习技术有可能扩展现有形态测量技术的结果并克服其局限性。虽然判别性学习方法旨在解释给定的数据集，但生成方法可以通过对模型进行查询以可视化新的数据实例来提高传统不透明模型的可解释性。具体来说，基于生成物理学的模型在几项研究中帮助可视化了疾病途径或目标。与传统机器学习相比，这种方法有可能识别更多与疾病相关的靶点。

本文演示了一种基于模拟脑质量分布和变化的生成式机器学习方法。这种方法称为三维（3D）基于输运的形态测量法（TBM），它基于最佳质量输运的数学。我们选择评估脑质量分布，因为神经元迁移、组织和分化障碍会改变脑质量分布。与大多数数据驱动的方法不同，质量传递可以用具有理论保证的闭式方程来描述。我们将这些方程与监督机器学习相结合，直接探测潜在的生物学机制。先前的工作已经证明，这种方法可以自动发现和可视化现有方法隐藏的模式。本研究调查了这种方法在神经发育障碍研究中的潜力。

在这里，我们假设 CNV 特异性大脑结构模式可以可靠地从背景变化中分离出来，即使在没有显示明显异常的图像中也是如此。首先，我们使用 TBM 从 Simons Variation in Individuals Project （VIP）数据中提取 CNV 特异性结构模式。与传统的形态测量方法相比，我们评估了这种模式的存在是否可以准确预测看不见的大脑图像中的 16p11.2 CNV。接下来，我们直接可视化了驱动准确 CNV 检测的特定大脑模式，这是一项关键的进步，因为 TBM 是生成式的。最后，我们将发现的大脑模式与行为相关联，研究了可以直接由 CNV 特异性大脑模式解释的行为变化的比例。我们证明自闭症中存在不同的大脑内表型，这可能是由存在于严重程度范围内的遗传 CNV 驱动的。这项工作有可能揭示 16p11.2 以外的 CNV 中新的基因-大脑-行为关系，这可能有助于对自闭症采取遗传学优先的精准医学方法。最后，我们贡献的技术广泛适用于许多神经系统疾病，并可能揭示新的治疗靶点。

2. 结果

2.1 被试人口统计

表 1 总结了受试者人口统计数据。重复和缺失携带者有一系列诊断，总结在表 2 中，每个人的多个诊断是最常见的。单因素方差分析（ANOVA）表明，重复携带者、缺失携带者和对照之间的脑组织体积存在显著差异。然而，我们在后面的章节中报告，仅凭脑组织体积不足以区分遗传队列。

在我们的研究中，缺失携带者通常比重复携带者和对照都年轻。这种年龄差异可能是由于确定偏倚造成的。一种可能的解释是，缺失携带者可能在更年轻时就开始就医，从而导致他们被纳入研究。尽管尽了最大努力使队列的年龄匹配，但这种年龄差异仍无法完全消除。

表1 被试人口统计

表2重复和缺失携带者的一系列诊断

2.2 使用人口统计数据进行 CNV 分类

仅年龄和性别并不能以高于偶然性的准确性区分 16p11.2 CNV。如表 3 所示，将脑实质体积与年龄和性别相结合并没有显著提高分类准确性。此处，在测试数据上报告准确性和置信区间。

表3 使用 pLDA 的分类性能

2.3 数据采集和预处理

在我们的研究中，我们使用了来自 Simons VIP 数据集的 T1 加权磁化制备的梯度回波图像（n = 206）。为了解释总体方向和大小差异，这些图像使用仿射配准进行共配准，并使用统计参数映射软件分割成灰质和白质组织。这种分离背后的基本原理在“灰质和白质变化之间的典型相关性”部分中进行了详细说明。在所有图像中归一化组织质量后，我们使用 TBM将每个图像转换为相对于参考图像的传输域，如图 1 所示。这种转换为每个图像生成了一个传输图，一个描述最佳质量保持映射的向量场。为了便于进一步分析，我们将这组传输映射连接到一个数据矩阵中，以便进行后续的传输域分析。

图1 3D TBM 系统图

2.4 主成分变化

TBM可以在传输域中更有效地表示数据，需要更少的组件来捕获相同水平的方差。此外，由于 TBM 是一种双射变换（图 1），因此它确保不会丢失信息。如图 2 所示，与图像域相比，传输域更好地代表了白质和灰质的底层结构。在传输空间中，仅用 132 个分量捕获了 96% 的白质方差，而图像空间中有 184 个分量。同样，96% 的灰质方差是在传输域中用 46 个分量捕获的，而在图像域中则有 182 个分量。此外，与传统的基于变形的技术相比，传输域具有相当大的建模优势。

图2 主成分

2.5 灰质与白质变化之间的典型相关性

当执行典型相关性时，观察到灰质和白质分布之间存在统计学上的显着关系（Pearson 相关系数 = 0.56，P < 0.01），在看不见的数据上解释了31%的方差。因此，白质和灰质之间的结构变化不能完全相互解释，这促使对灰质和白质进行单独分析。

2.6 脑实质体积与结构变异之间的相关性

在校正年龄、性别、基因队列和全面智商（IQ）的协变量后，灰质（Pearson 相关系数 = 0.12，P = 0.20）或白质（Pearson 相关系数 = 0.21，P = 0.29）的脑实质体积与组织分布之间没有统计学意义的相关性。因此，脑实质体积不能预测脑组织分布的潜在变化。

2.7 3D TBM

2.7.1 分类

尽管重复载体、缺失载体和对照在图像域中不容易分离，但它们在训练集的传输域中是高度可分离的。如图 3（A 和 B）所示，当受试者数据分别被投影到通过惩罚线性判别分析（pLDA）计算的白质和灰质计算的最具区分性的子空间时。此外，图3（C 和D）显示了根据传输域中最近的质心距离，将训练集中的三个类别分开的平均决策边界。

我们观察到，在训练集和测试集中，基于白质分布的遗传队列比灰质分布更容易分离。此外，判别方向 1 表示 16p11.2 CNV 对灰质和白质的大脑结构变异的剂量依赖性影响。沿方向 1，对照以均值为中心，而重复和缺失载体以 1.5σ 倒数居中1或 −1.5σ1从均值，其中 σ1表示平均值的 SD。判别方向 2 在区分对照与重复和缺失载体方面发挥作用。

为了保持原始类分布，使用了分层交叉验证。使用随机折叠分区重复该过程 1000 次，报告所有 1000 次迭代的平均最终准确性、敏感性、特异性和 Cohen 的 kappa，以及这些迭代的 95% 置信区间。在每次迭代中，将测试数据投影到根据训练集计算的判别子空间上，并根据最近的质心距离确定类分配。

白质结构变化可以在测试集上以 94.6% 的准确率预测 16p11.2 CNV，灰质结构可以在测试集上以 88.5% 的准确率预测 CNV，即使在校正了年龄和性别的协变量后也能进行稳健的分类。将白质和灰质结合起来并没有提高辨别能力，可能是由于共线性。kappa 统计量表明 CNV 与白质和灰质的结构之间存在近乎完美的关联。此外，3D TBM 的分类性能优于使用现有脑形态测量技术的分类性能。

图 3 3D TBM 判别子空间

2.7.2 可视化定义 16p11.2 CNV 鉴别的脑组织变异

3D TBM 是一种生成式机器学习技术，能够直接可视化特征性大脑内表型，从而驱动对 16p11.2 CNV 进行分类的能力。在图 3 中，通过沿判别方向 1 和 2 对灰质和白质进行采样，可以通过逆 TBM 转换可视化大脑内表型。

2.7.3 整体脑结构变化

观察到的扰动模式表明，大脑区域的脆弱性是弥散的，而不是局部的。首先，如前所述，16p11.2 位点的 CNV 与总脑实质体积呈剂量依赖性负相关。

其次，即使在 TBM 分析之前校正了体积的影响后，重复和缺失载体之间的变化在空间上也是分散的。在图 4 中可视化沿方向 1 的特征组织移动时，这一点很明显，其中几乎每个区域的密度都发生了变化。

图 4 TBM 生成的图像显示与 16p11.2 CNV 相关的空间弥散变化。

第三，重复和缺失载体之间局部组织扩张/收缩的倒数模式进一步支持了弥漫性变化模式，相反的区域随着基因剂量而发生体积膨胀或收缩。这是由从 TBM 程序获得的传输图计算的雅可比行列式捕获的，该图显示与位于 −3σ 的缺失和重复载体的皮尔逊相关系数 -0.96 （P < 0.001）和白质的 -0.97 （P < 0.001）的皮尔逊相关系数具有很强的负相关1和 3σ1分别来自均值。

第四，与对照组相比，缺失往往导致灰质组织严重过度生长，而重复往往以剂量依赖性方式导致灰质严重过度生长。这可以通过脑组织占据的图像体积分数来测量，该分数随着基因剂量的增加而减少。例如，在缺失载体中，−3σ1远离平均值，39.9% 的图像体积被灰质占据。在 −1.5σ 时，该值降低到 39.7%1.在平均值处，该分数为 38.9%，在 1.5σ 处1，它是 37.7%。在 3σ 时，它是36.5%。在检查白质时，这种模式并不明显（图 4）。

2.7.4 区域性大脑结构变化

为了评估区域宏观结构变化，将图像注册到哈佛-牛津图谱中，这是一个分割 48 个皮层和 21 个皮层下区域的概率图谱。通过沿方向 1 和方向 2 的传输域中的雅可比映射计算 ±3 SD 处相对于平均位移的相对局部体积收缩和膨胀。然后，将体素 z 分数分配给沿方向 1 和 2 计算的雅可比映射，分别如图 5 和图 6 所示。

图5 沿方向1的变化

图6 沿方向2的变化

2.8 16p11.2 脑内表型和行为

沿方向 1 和 2 捕获的不同大脑内表型与行为之间的关系在群体空间中进行了研究。我们的先验假设是发音障碍与 CNV 相关，因为它是与 CNV 最相关的疾病。

结果显示，沿判别方向 1 的 TBM 评分与灰质（P < 0.0001）和白质（P = 0.0002）的发音障碍显著相关。发音障碍在缺失携带者中更为常见，占该疾病患者总数的 96.0%，而重复携带者仅占 4.0%。这些发现如图 7（A和 B）所示，它们表明，在重复/缺失携带者中，灰质或白质的 TBM 评分为负值对于患有发音障碍的敏感性为 96%，特异性为 62.9%。即使在对多重比较应用 Bonferroni 校正后，这些关联仍然显着。

图7 发育障碍

沿方向 2 的 TBM 评分显示与 IQ 评分显著相关，这在运输域中计算的 pLDA 判别子空间的多元线性回归中显示。对于灰质和白质，方向 2 与 IQ 的关系都比方向1强。在灰质和白质的组合模型中，白质方向 2 上的权重不成比例地高。

3. 讨论

这项研究揭示了与自闭症遗传 CNV 相关的大脑结构模式的新细节。这些模式足够具体，以至于它们的存在可以准确地预测仅从新的、看不见的个体的大脑图像中预测 CNV。此外，发现的模式对发音障碍很敏感，并解释了 IQ 的一小部分变异性。本文的结果是由 3D TBM 实现的，3D TBM 是一种生成式机器学习方法，可以直接探测扰乱脑质量分布的生物机制。通过详细揭示支撑 CNV 相关内表型的结构网络，这项研究有助于推进我们对自闭症生物学基础的理解。

虽然自闭症主要通过行为来诊断和治疗，但它具有高度遗传性，最近的遗传性估计高达 90%。然而，现在只有不到一半的自闭症患者接受基因筛查。未来，这项临床前研究的结果可以通过多种方式在临床研究中得到验证。首先，当患者出现初始症状时，通常会进行常规脑成像。TBM 可以帮助自动筛选这些图像，以便及早发现潜在的 CNV，并转介患者进行基因检测。其次，由于我们发现大脑内表型存在于 TBM 可量化的光谱上，因此将来可以研究 TBM 评分的预后价值。随着新疗法的出现，需要新的治疗性生物标志物来确认治疗效果。在这方面，这项研究表明，成像上的脑内表型可以促进未来的自闭症筛查和个性化治疗。需要更大规模的队列研究和前瞻性试验来探索这些可能性。然而，这些努力必须与自闭症研究中遗传分层数据集的管理同步进行。

我们专注于自闭症最普遍的遗传原因之一 16p11.2 作为案例研究。该遗传位点的功能在很大程度上是未知的。我们发现16p11.2 CNV 在脑结构变异方面几乎是 100% 的渗透性，能够仅基于脑成像对 CNV 状态（缺失、重复和对照）进行灵敏检测。我们直接可视化了驱动准确区分的CNV 特异性内表型，发现了具有区域定位的弥漫过程。缺失携带者表现出组织过度生长，而重复携带者表现出生长不足，在均匀对照中观察到影响，严重程度范围相同。从区域上看，受影响最大的领域是与情绪处理、视觉空间能力、多感官整合和语言相关的领域，与自闭症的行为表型一致。此外，我们观察到右半球和左半球之间的某些变化的偏侧化，进化上专门用于视觉空间能力（右）和语言能力（左）。此外，这些结构变化可显著预测发音障碍，即无法产生正常语音，其中包括替换、遗漏、失真和添加错误。CNV 特异性脑内表型也解释了一小部分 IQ 变异性。结果证实，16p11.2 CNV 通常在自闭症和其他神经发育障碍患者中新发发生，影响高阶认知加工功能。由于其他 CNV 也展示了镜像脑表型，如 22q112.2 和 15q11.2，因此将来，这种方法可用于研究与自闭症相关的 >200 个 CNV 中的许多。CNV 是个体之间变异性的主要来源，TBM 可以帮助我们进一步了解人类神经多样性。

先前的研究已经观察到基因剂量相关对大脑大小的影响以及在缺失载体的扩散张量成像研究中轴向扩散率和分数各向异性（FA）的广泛变化。另一项先前的研究报告了 16p11.2 重复和缺失中更普遍的皮质异常，缺失组或重复组的皮质厚度分别异常增加或减少。与以前的研究相比，TBM 的一个关键功能是它是生成的，提供了将统计变化与潜在生物机制联系起来的能力。我们直接可视化了 CNV 特异性网络中灰质和白质的物理变化。在不久的将来，TBM 可用于研究针对神经元迁移、组织和分化的新疗法。例如，Ras 同源基因家族成员 A （RhoA）抑制和 CD47 通路调节可能有助于调节 16p11.2 缺失神经元的活性和神经元修剪。N-甲基-d-天冬氨酸受体调节剂和转录因子是其他潜在疗法。通过基因治疗或转录方法靶向 16p11.2 CNV 是临床前研究的一个有前途的领域。16p11.2 基因位点的多效性效应需要在未来进一步探索。

尽管自闭症表型存在异质性，但发音障碍和 IQ 可以部分由 CNV 特异性内表型解释。16p11.2 CNV 与语言障碍显著相关的发现与最近新兴文献中的研究一致，尽管我们的研究结果以剂量依赖性方式将大脑宏观结构与行为的关系相关联。同时，我们无法就这种关系的因果关系得出结论。行为的可变表达可能来自具有多种功能的基因，在人类进化过程中，认知功能的数量没有成比例的增加。此外，16p11.2 CNV 个体的行为异质性会受到非遗传和遗传因素的影响。

本研究中确定的由于 CNV 而表现出最突出扩张/收缩的区域与人类进化过程中经历重大变化的区域重叠，包括额叶区域、顶叶区域和颞极。方向 1 服务的网络涉及多感官整合、视觉空间能力、一端和另一端的感觉，与读写功能、语义处理、语言产生和情绪调节相关的网络，与观察到的 16p11.2 CNV 相关自闭症和相关疾病的症状一致。似乎存在偏侧化，右侧结构服务于视觉空间能力，左侧结构服务于语言网络。在方向 2 中，在控制中，与语音感知、语言理解、熟悉的面孔识别、情绪和社会行为、语义加工和社会情感处理相关的领域扩大，而在缺失/重复中，与决策、体感联想、解释触觉感觉数据、语音处理、语言、语义记忆、视觉处理和感觉统合契约相关的领域。方向 2 皮质下区域表现出比方向 1 更少的偏侧化，混合了视觉空间（右）和情景语言记忆（左）。这些结果与 16p11.2 CNV 处于人类进化历史和与自闭症和其他神经发育障碍风险密切相关的新发突变来源的十字路口一致。

与灰质相比，白质结构差异能够更好地区分遗传队列。根据幂律，白质中长轴突的体积比包含树突和轴突的灰质体积增加得更快，因此皮层的远处区域可以更好地连接。在 Reber 等人中，结构性白质损伤在预测局灶性脑损伤后认知障碍方面优于灰质功能中心性。此外，白质的类内方差比灰质小，这表明它更具区分性，并且可能对与 CNV 相关的大脑结构产生更强的影响。包括灰质特征会略微增加与白质的类别差异，如补充材料中所示。未来，弥散成像上的 TBM 可以识别受 16p11.2 CNV 影响的特定白质束。

几种病理机制可能证实本研究中的发现。在缺失载体中，这些变化包括胞体大小/树突长度增加、突触标志物表达增加以及多动、CD47 过表达。在复制载体中，这些包括神经元分化缺陷、突触标志物表达降低和胞体大小/树突长度减少。此外，髓鞘和髓鞘脂质可能在白质畸变中发挥作用。此外，转录失调和皮质发育不良也可能起作用。小鼠模型提示突触功能障碍，16p11.2 位点的某些基因导致皮质发育异常（34），GABA 能和谷氨酸能突触的突触功能发生变化，缺失载体皮质纹状体回路中断，缺失载体中胼胝体增厚，重复载体变薄。我们的研究结果支持重复减少了皮质厚度和扩大了心室。变化主要见于岛叶、钙质皮层、伏隔肌、苍白球、颞横回、尾状核、壳核和丘脑。我们还证明了区域效应独立于全局效应。16p11.2 基因也可能参与子宫铁稳态。这项研究表明，可能涉及子宫内的突触发生和皮质发育，尽管需要进一步的研究来表征体内机制。

这项研究有几个局限性。首先是确定偏倚，因为在诊所看到的自闭症人群可能反映了除 CNV 之外的其他因素。人群中可能存在更健康的对应物，并且这些数据集中没有捕获更严重的疾病，因为这些患者可能病得太重而无法参加临床试验。第二个局限性是，虽然该研究调查了单个遗传位点的影响，但它并未直接评估该基因与其他基因的复杂相互作用。第三，本文检查了儿科到成人患者。多项研究表明，神经影像学异常似乎在青春期和成年早期不受年龄的影响，这表明表型稳定，变化在早期就已经存在。由于这些变化在整个年龄段都可见，但很早就出现，因此儿童早期可能是干预的最佳时机。第四个限制是基因-大脑-行为关系的因果关系不能仅根据我们的结果来确定，但可以在体内动物模型中进一步研究。最后，由于我们的遗传分层队列，可能无法将大脑结构变异对发音障碍的独立影响与 CNV 的影响区分开来。在更广泛的非遗传分层自闭症人群中调查这种关系可以提供有价值的见解，并为未来的研究提供保证。

这项临床前研究作为概念验证，证明存在与 CNV 相关的不同脑内表型并且在行为上相关。CNV 越来越被认为是探索大脑-行为关系的有价值的遗传模型。未来的研究可能会将这种方法扩展到研究与自闭症相关的其他CNV。区分与自闭症相关的大脑变异性和与自闭症无关的变异性是一项持续的挑战。与 16p11.2 CNV 相关的大解剖变异有助于区分 CNV 相关变异与其他变异来源。将来，可能需要量身定制的方法来检测其他 CNV 的潜在更微妙的影响。由于遗传分层得到了多项研究的支持，我们技术的未来应用可能有助于加速自闭症和其他神经发育障碍的遗传学优先策略，以解锁精准医学的新领域。

4. 材料与方法

4.1 研究人群

受试者是作为 Simons VIP 的一部分招募的。这项研究由约翰霍普金斯大学机构审查委员会审查，并承认为豁免，因为受试者被去标识化并且来自先前存在的数据库。参与者由临床遗传中心或检测实验室、基于 Web 的网络以及了解 Simons VIP 的家庭的自我推荐推荐。受试者接受了 Geisinger 和埃默里大学对医疗记录的初步筛选和审查。使用外周血样本通过荧光原位杂交检测 16p11.2 CNV。纳入标准是那些在 BP4-BP5 处有 16p11.2 的复发断点但没有其他致病性 CNV、神经遗传学诊断或与 16p11.2 无关的综合征的人。排除标准是对神经认知状态有潜在影响的环境侮辱史（如胎儿酒精综合征）、严重出生窒息、严重早产和英语不流利。根据基因型定义纳入标准的优点是，与行为诊断相比，纳入标准不会随着时间的推移而改变。

行为测试包括自闭症诊断观察表、自闭症诊断访谈和广泛的社交障碍筛查措施，例如社会反应量表。表型分析的核心站点是华盛顿大学医学中心、贝勒大学医学中心和波士顿儿童医院。诊断基于 DSM-IV-TR 标准。应用适合发展的认知测量来测量 Mullen 早期学习量表、差异能力量表第二版、韦氏智力量表或韦氏简化智力量表中的全量表智商。高分辨率结构脑成像在加利福尼亚大学（UC）和费城儿童医院（CHOP）进行。

对照组由在核心成像站点（UC-San Francisco、UC-Berkeley 和 CHOP）附近从普通人群中本地招募的受试者组成，并根据年龄、性别、惯用手和非语言智商进行匹配。排除标准包括基于临床心理学家审查或 ASD 直系家族史、其他发育障碍、畸形特征或遗传异常的主要 DSM-IV 诊断。对照受试者还进行了染色体微阵列、神经系统检查、临床心理学家访谈和畸形照片评估。

4.2 图像采集

收集 T1 加权磁化制备的梯度回波图像（MPRAGE）图像。不同地点使用相同的结构脑成像方案;临床扫描仪进行交叉校准。3T TIM Trio 磁共振成像扫描仪（Siemens）用于使用 32 通道相控阵射频头线圈对受试者进行成像。在矢状面上，使用以下参数获得 3D 多回波 MPRAGE 序列：TR = 2530 ms、TI = 1200 ms、TE = 1.64 ms、FA = 7°、1 mm × 1 mm × 1 mm 各向同性体素，视场 = 256 mm。对图像进行质量控制评估，并丢弃具有伪影的受试者，例如振铃/条纹/模糊、不均匀、头部覆盖率差、重影或易感伪影。

4.3 图像预处理

首先对图像进行预处理以排除颅骨和脑脊液。在分割成灰质和白质后，仿射共配准步骤对大脑进行标准化以校正总大脑大小。接下来，将图像归一化为具有相等的质量。灰质和白质组织分别分割。为了提高计算效率，图像的采样率降低了 2 倍。使用作为统计参数映射软件（SPM12）一部分的 VBM8 工具箱进行预处理。

图8 示例图像

4.4 3D TBM

3D TBM 技术是一种非线性图像转换框架，最初由 Kundu 等人描述。前提是，当应用最佳传输（OT）度量时，在原始图像域中可能无法察觉的模式（图 8）可能更容易在变换域中提取。与现有方法相比，三维隧道掘进机是完全自动化的，不需要体积等先验特征来发现判别模式。3D TBM 的一个关键贡献是它是衍生式的。与现有方法不同，逆变换能够对发现的判别模式进行直接物理解释。本文对 3D TBM 框架进行了修改和扩展。通过将监督机器学习分类与 3D TBM 相结合，本文能够自动发现和可视化对 16p11.2 CNV 鉴别敏感的灰质和白质模式。

由于磁共振成像测量来自水质子的信号，我们基于传输的方法的动机是直接量化组织水分布从一个图像到另一个图像的偏移。后者由 OT 距离测量。两个图像之间的 OT 距离测量将一种组织分布转变为另一种组织分布的“努力”（通过移动距离内的质量量来量化）的 “努力” 量。就质量运输而言，距离是最优的。3D TBM 方法基于应用 OT 距离来区分图像。

相比之下，现有方法主要依赖于数字统计，例如总脑体积和体素统计，而没有直接量化组织分布的物理变化。从这个意义上说，三维隧道掘进机具有独特的优势，因为它提供了直接的物理解释。图 1 说明了3D TBM的系统图。

4.5 发现可区分的组织模式

使用 3D TBM 技术将灰质和白质图像转换为传输域。对于每个单独的图像，相对于公共参考的形状和纹理的变化在每个图像的唯一传输图中具有特征。传输映射会变形每个源图像以匹配公共参考。每个灰质和白质组织的公共参考图像是通过取研究队列的欧几里得平均值来计算的。OT 映射是随移动距离变化的质量量最小化的映射。虽然潜在运输地图的空间是无限的，但 OT地图是独一无二的。与使用变形场的方法相比，传输图捕获了形状和纹理的变化，并已被证明在通过组织分布的传输模型实现物理解释方面具有优势。

4.6 基于OT的学习

从形式上讲，OT 度量定义的度量空间是黎曼流形。此黎曼流形上两个图像之间的最短距离对应于此流形上的测地线。但是，我们计算了传输度量的修改（线性化）版本（即广义测地线）。因此，变换空间中的欧氏距离对应于使用传输度量修改后的测地线距离。后者意味着 OT 测地线捕获的图像域中的复杂非线性变化对应于变换域的欧几里得距离。因此，3D TBM 增强了类的可分离性，并且在 1D 情况下，被证明可以将原始图像空间中的非凸集转换为变换空间中的凸集和不相交集。对于两个凸集和不相交集，始终存在分离超平面，因此可以实现集的线性可分性。

作为线性测地线的结果，TBM 中的实验工作表明，变换空间中的简单线性分类器和回归模型也可以在三维空间中捕获图像域中组织分布的复杂、空间扩散、非线性变化。

4.7 可视化发现的脑组织分布变化

这项工作的一个关键贡献是 3D TBM 是生成式的。将生成技术与基于物理的模型相结合的一个好处是，TBM 有助于直接可视化物理组织变化。可以对学习到的决策边界进行采样和反转，以可视化驱动类歧视的变化。后者使分类决策的因果可解释性成为可能。此外，TBM 等生成技术通过提供可逆的生成模型解决了 Friston 和 Ashburner强调的局限性，从而为统计参数分配了直接的物理意义。

4.8 主成分变化

转换到传输域后，应用标准主成分分析（PCA）技术对传输域中的数据进行去噪。删除了对数据集中总体方差贡献不大的数据维度。保留与方差的前 96% 对应的主成分。

4.9 监督式机器学习

如前所述，像域中的非线性距离可以用传输域中的欧几里得距离来表示。因此，在转运域中设计了一个线性分类器来表征组织形态的变化。pLDA 技术用于计算传输空间中的子空间，当数据投影到该子空间时，该子空间最大限度地分离了类。为了评估机器学习分类器的性能，我们将数据随机划分为不同的训练集和测试集。然后，我们通过在训练集上计算判别子空间来训练分类器，并通过迭代多次的 10 倍分层交叉验证程序测试其在相应测试集上准确分配队列的能力。有关交叉验证方案的更多详细信息，请参阅另一部分。

在每次训练迭代中，使用 pLDA 方法对降维后的单个样本进行分类。给定第 m个 TBM 转换的图像fm，让我们参考传输地图的矢量化版本fm如xm.使用 pLDA 方法在传输空间中寻找 C-1 维子空间，以便最大限度地分离 C = 3 类的投影。

4.10 重复交叉验证

在分类过程中进行分层 10 倍交叉验证。对于每个折叠，在训练集中执行 PCA 技术，并将训练数据投影到捕获前 96% 方差的主成分上。测试数据居中并按照与训练集中相同的过程投影到相同的主成分上。在此降维步骤之后，如上所述执行监督式机器学习。分层的 10 折交叉验证迭代了 1000 次，每次将数据集随机和非重复地划分为 10 倍。

准确性、敏感性和特异性以及 95% 置信区间是通过使用二项分布的正态近似来确定误差估计的。使用白质和灰质分布获得的测试准确性与单独基于年龄、性别和脑实质体积的测试准确性使用相同的分类方案进行比较，并在表 3 中报告。

4.11 可视化区分差异

对在传输域中计算的分层 10 倍交叉验证的判别子空间进行平均，以产生每个判别方向的单一方向。分类方案在训练阶段计算的判别子空间沿最大相关方向进行采样。计算对应于脑组织因判别方向而变化的大小和方向的向量场。然后，使用逆 TBM 变换将队列边界之间的界面可视化，使用方程 3 作为大脑图像。

参考文献：Discovering the gene-brain-behavior link in autism via generative machine learning.

医疗大健康

0 人点赞