TP|多模态数据预测精神分裂症患者对rTMS治疗反应：多站点机器学习分析

重复经颅磁刺激（rTMS）的反应变异性对精神分裂症患者有效使用这种治疗方法提出了挑战。这种变异性可以通过人工智能利用结构磁共振成像、临床、社会人口学和遗传学数据中的预测信息来破解。我们开发了经颅磁刺激反应预测模型，并对来自多站点 RESIS 试验的精神分裂症患者进行了交叉验证。这些模型纳入了治疗前的 sMRI、临床、社会人口学和多基因风险评分 (PRS) 数据。患者被随机分配接受阳性经颅磁刺激（N = 45）或假经颅磁刺激（N = 47）治疗。预测目标是个体反应，即阳性与消极综合征量表（Positive and Negative Syndrome Scale）中治疗前的消极症状总分减少≥20%。我们的多模态序列预测工作流程在阳性治疗组的平衡准确率（BAC）达到 94%（无应答者：92%，应答者：95%），在假治疗组的平衡准确率（BAC）达到 50%。临床、临床 PRS 和基于 sMRI 的分类器的 BAC 分别为 65%、76% 和 80%。在临床 PRS模型中，明显的悲伤、无法感受、教育程度PRS和失业最能预测无反应，而在sMRI模型中，默认模式、边缘网络和小脑的灰质密度降低最能预测无反应。我们的序列建模方法提供了卓越的预测性能，同时最大限度地减轻了临床诊断负担。预测模式表明，经颅磁刺激响应者可能在默认模式和显著性网络中拥有更高水平的大脑灰质，这增加了他们从经颅磁刺激等可塑性诱导脑刺激方法中获益的可能性。要在未来的临床中应用我们的模型，需要在国际范围内采用分层临床试验设计来复制研究结果。

1. 简介

重复经颅磁刺激（rTMS）是一种非侵入性治疗方法，能够在神经系统水平上诱导各种神经精神疾病的长期兴奋性和可塑性变化。对于其他神经或神经精神疾病，如中风、阿尔茨海默病、帕金森病和精神分裂症，经颅磁刺激疗法也显示出其疗效。具体而言，近年来出现了少量使用经颅磁刺激治疗精神分裂症阴性症状的研究，因为这些致残症状对抗精神病药物或社会心理治疗反应不佳。然而，据观察，经颅磁刺激疗法的治疗效果在个体间存在很大差异。这种异质性可能是由遗传、神经解剖、神经功能、连接和社会人口等因素造成的。迄今为止，除抑郁症外，还没有研究通过分析这种多维异质性来开发经颅磁刺激治疗结果的个体化预测指标。

精神分裂症的治疗结果预测已发展成为精准精神病学研究的一个重要领域[。机器学习和人工智能方法的出现为研究人员提供了利用多变量和多模态数据创建预测模型的手段。我们曾利用社会心理和症状变量预测了首次发作精神病的功能性结果，并在 108 例未见样本患者身上验证了该模型，平衡准确率为 71.7%。Leighton 等人成功预测了首次精神病患者药物治疗 1 年后的缓解和康复结果，并利用基线临床和人口统计学变量在两个独立样本中验证了他们的研究结果。Wang 等人利用磁共振成像和多基因风险评分预测了精神分裂症患者的抗精神病药物治疗结果。

目前只有一项研究利用机器学习预测精神分裂症的经颅磁刺激治疗结果。在之前的研究中，我们基于结构磁共振成像（sMRI）这一单一预测模式，为阴性症状为主的精神分裂症患者开发了经颅磁刺激治疗反应分类器，并进行了交叉验证。但是，我们并未评估这些患者的临床、社会人口学和遗传信息的潜在附加价值。基于之前有证据显示多模态预测模型优于单模态模型，我们假设通过将临床、社会人口学和遗传信息与成像数据相结合，可以提高我们基于 sMRI 的原始预测模型的预测能力。为此，我们将 sMRI 预测模型与新训练的临床、社会人口学和遗传学数据分析模型相结合，形成了一个多模态预测系统。其次，先前的工作表明，按照延迟学习的原则战略性地组合多个数据域可能会带来更高效的预测系统。通过只对每位患者进行那些能共同将个体预测不确定性最小化的检查，这样的系统可以更容易地应用于临床治疗，从而降低数据采集成本和患者的诊断负担。

因此，我们假设，与 "数据饥渴症 "方法相比，序列预测技术可提高经颅磁刺激反应预测模型的临床适应性，而 "数据饥渴症 "方法则需要每个待测患者的所有数据，同时保持后一种预测策略的更高性能。因此，我们利用 "重复经颅磁刺激治疗精神分裂症阴性症状"（RESIS）试验数据库中的所有可用数据域，训练并验证了顺序预测模型。第三，我们评估了 sMRI、临床和 PRS 数据之间的相关性，以确定任何潜在的跨模态关联。通过这样做，我们旨在更深入地了解决定患者对经颅磁刺激反应的个体间差异的基本模式。

2. 方法

2.1 被试和目标定义

RESIS 研究在三个学术临床中心招募了符合以下标准的 ICD-10 诊断为精神分裂症的患者：阳性与阴性综合征量表阴性分量表（PANSS-NS）>20分，1项PANSS-NS项目≥4，治疗开始前14天内PANSS-NS未降低≥10%，病程≥1年。所有患者在入组前均提供了书面知情同意书。该研究已在 https://clinicaltrials.gov（NCT00783120）注册，研究方案已获得三所参与机构（戈廷根大学、杜塞尔多夫大学和雷根斯堡大学）的机构审查委员会批准。

在意向治疗（ITT）人群（N = 157）中，96 名患者进行了治疗前 sMRI（阳性/sham rTMS：N = 45/47），主要 PANSS-NS 结果终点定义如下：∆PANSS-NS% = (PANSS-NST1 - PANSS-NSBaseline) × 100/（PANSS-NSBaseline - 7）。由于 7 是 PANSS-NSBaseline 的可能最低值，因此用 PANSS-NSBaseline-7 代替 PANSS-NSBaseline 作为基线值。患者会被贴上应答或无应答标签，其中应答的定义是 PANSS-NS 基线值与第 21 天之间的改善幅度≥20%。这些标签被用作下文所述机器学习分析的目标。

2.2 治疗和干预

ITT人群中的所有患者对干预措施均为盲法，并根据EEG-10-20系统（F3电极，3周内5次/周，1000次/天，50次/次），以个人静息运动阈值（RMS）的110%随机对左侧DLPFC进行10赫兹阳性或假性经颅磁刺激（F3电极，3周内5次/周，1000次/天，50次/次）。阳性治疗与假治疗的区别在于，假治疗患者的刺激线圈以 45 度角倾斜于一侧机翼。在刺激前（基线/T0）、刺激后第 21 天（T1）、第 28 天（T2）、第 45 天（T3）和第 105 天（T4）记录了评分者盲法临床数据。在 ITT 群体中，活性经颅磁刺激与假性经颅磁刺激在主要结果、其他临床结果和认知能力方面均未发现明显差异。

2.3 临床和社会人口学数据采集与预处理

仅使用基线数据来训练和交叉验证分类器。我们在基线数据中包含了所有可用的临床和社会人口数据，没有进行人工预选，以尽量减少机器学习过程中的人工干预。这些特征包括 16 个临床特征，包括阳性和阴性综合征量表阳性得分（PANSS-PS）、阴性得分（PANSS-NS）、一般得分（PANSS-GS）、卡尔加里精神分裂症抑郁量表项目得分总和（CDSS）、临床总体印象疾病严重程度得分（CGI-S1）、总体功能评估得分（GAF）以及蒙哥马利-阿斯伯格抑郁量表（MADRS）的 10 个项目；4 个合并症特征（研究招募前的终生酗酒史、酗酒成瘾、药物滥用、药物成瘾）和 5 个社会人口特征（婚姻状况、就业状况、住房状况、受教育年限、父母受教育年限总和）（补充 C1，S1）。

2.4 基因数据采集和 PRS 计算

所有患者，包括阳性治疗组和假性治疗组，都在 Infinium PsychArray-24 BeadChip（Illumina，美国加利福尼亚州圣迭戈）上进行了基因分型。根据基因祖先成分，我们从阳性治疗组和假性治疗组各 45 名患者中确定了 15 名患者为祖先异常值，必须从进一步的分析步骤中剔除。因此，在机器学习分析中，只有 30 名阳性组和 30 名虚假组患者提供了 PRS 数据（补充 C2）。精神分裂症 PRS（PRS-SZ）和教育程度 PRS（PRS-EA）采用 PRS 连续收缩法（PRS-CS）计算。SZ 和 EA 全基因组关联研究被用作发现样本。PRS-CS 方法根据不同的多基因假设（从 1e-1 到 1e-6，共 6 个 φ 值）产生不同的分数。所有 12 个 PRS 特征（6 个 PRS-SZ 和 6 个 PRS-EA）都进行了 z 转换，并用于随后的机器学习分析。

2.5 sMRI 成像数据采集和预处理

结构磁共振图像是在两台 3T 系统（西门子 Trio）和一台 1.5T 系统（西门子 Sonata）上使用 T1 加权序列获得的。所有图像均经过质量控制，有 4 名研究参与者因图像质量不佳而被剔除。所有 sMRI 图像均使用 r1207 版本的 SPM 计算解剖工具箱（CAT12）进行处理。其余患者的 sMRI 图像则通过自动组织分割和高维立体定向配准（DARTEL）进行处理。得到的灰质密度（GMD）图像与 MNI-152 模板进行了配准，并用 8 毫米高斯核进行了平滑处理。有关图像采集和预处理的更多详情，请参阅我们之前的工作。GMD 图像被平铺成由 71276 个体素组成的向量，作为机器学习分析的输入特征。

2.6 机器学习策略

我们使用开源机器学习库 NeuroMiner 1.1（图 1）生成了机器学习模型来预测六种不同模式组合的经颅磁刺激治疗反应。这些模式组合包括：（1）临床和社会人口信息（临床模式）；（2）临床、社会人口和 PRS 数据（临床 PRS 模式）；（3）sMRI 数据；（4）结合临床和 sMRI 模式的堆叠模式（sMRI 临床模式）；（5）结合所有模式的堆叠模式（全模式模式）；以及（6）结合所有模式的优化顺序模式（顺序模式）。这些模式组合完全是根据 RESIS 数据集中的可用数据域确定的。

图 1 本研究的主要分析设计示意图

模型分为基础模型、堆叠模型和顺序模型。基础模型不采用分层堆叠策略：临床模型、临床 PRS 模型和 sMRI 模型。堆叠模型采用分层元学习策略，将基础模型的判定分数作为输入特征来训练元分类器，该元分类器可同时利用多种模式的预测能力，具有更好的可解释性和灵活性。顺序模型以逐步优化预测性能的方式将不同的基础模型和堆叠模型结合在一起，并减少了实现这一性能所需的每例检查，这是一种通过使用多种模式最大限度提高预测准确性的创新方法，同时减少了获取更多数据的额外负担和成本。优化超参数包括 7 个候选预后序列、5 个上例传播百分位数阈值和 5 个下例传播百分位数阈值，最终形成 7 个序列模型和总共 175 个超参数组合（补充 3.6）。

我们采用了池式重复嵌套交叉验证（P-CV），外层 CV 循环采用 10 次排列和 20 次折叠，内层 CV 循环采用 1 次排列和 19 次折叠，以无偏估计模型对新患者的通用性。所有模型均采用线性核支持向量机 (SVM) 算法进行训练。优化指标为平衡准确度：BAC = (灵敏度特异性) ÷ 2。从内部 CV 循环中生成的所有 SVM 模型被组合成一个集合分类器，然后应用于相应的外部 CV 数据，以评估模型性能。这一过程在重复嵌套 CV 设计的所有外 CV 循环中重复进行。对于外层 CV 折叠中的每位患者，通过多数投票将获得的 SVM 决策得分加总为一个最终预测结果。我们采用了三种不同的预处理管道来处理六种模式组合的不同数据域（补充 3.1、3.2、3.5）。这些管道被完全包裹在 CV 结构的每个内循环中，以避免训练数据和测试数据之间的任何信息泄露。

我们还进行了其他分析，以检验模型的显著性、通用性和治疗特异性。首先，我们进行了交叉模型验证，将假组数据应用于活性组模型，反之亦然。然后，我们通过在 n = 1000 个随机标签排列上对 SVM 模型进行训练和交叉验证，确定所观察到的活动模型和假模型的预测性能是否显著。在 α = 0.05 时，模型的显著性定义为 P = ∑n = 1000(BAC(observed) ≤ BAC(permuted)) ÷ n。接下来，我们通过留空交叉验证（LOSO-CV）训练模型来评估模型的普适性。这种交叉验证方案是一种内部-外部验证形式，建议用于评估多中心研究中机器学习模型的普适性，以替代外部验证，并能有效评估过度拟合。三个研究地点中的每个地点都被反复排除在外进行验证，而剩余数据则进入内部 CV 循环。因此，外部 CV 只有三个折叠，每个折叠的训练样本数量分别为 28、23 和 39。与 P-CV 方法相比，外 CV 的训练样本数量有所减少。内层 CV 方案采用 15 次折叠和 10 次排列的随机集合。我们观察到，在阳性组中，所有 LOSO-CV 模型的预测性能均低于 P-CV 模型。为了研究性能下降是由于残余部位效应，还是由于 LOSO 导致训练样本量减少，我们在 n = 1000 次患者部位分配的排列中训练了三个 LOSO-CV 基本模型。此外，我们还对所有在阳性治疗患者身上训练的模型进行了 Z 检验，以评估模型之间的性能差异是否具有统计学意义（补充 3.7、3.8）。

2.7 预测模式提取

我们使用了额外的事后分析方法来提取模型的预测模式。具体来说，对于 sMRI 模型，我们使用交叉验证比（CVR）方法确定了基线 GMD 模式的可靠性，将重要区域映射到 AAL 脑图谱上，并使用开源软件 MRIcroGL（补充 4.3）根据 Yeo 图谱定义的脑网络总结了重要区域。对于临床和 PRS 模型，我们使用 CVR、特征权重、Spearman 系数和基于符号的一致性指标对特征进行排序，并确定最具预测性的变量。

2.8 事后跨模态相关分析

我们进行了一系列事后分析，以评估临床、PRS 数据和基于 sMRI 的变量之间的相关性，从而找到潜在的跨模态模式，这些模式可以弥补阳性经颅磁刺激组中由 sMRI 模型和临床 PRS 模型确定的预测模式。首先，我们按照模型开发过程中使用的相同预处理管道校正了所有模态中的协变量效应（补充 3.1、3.2）。然后，我们对临床 PRS 模型中使用的每个临床和 PRS 特征（补充 S15）与组织在 ROI 和脑网络中的 GMD 图像（补充 C5）之间进行了单变量皮尔逊相关性分析。

2.9 事后预测治疗效果分析

我们进一步进行了一系列事后分析，以研究我们模型的预测结果与患者接受治疗后不同随访期间观察到的 PANSS-NS 评分精确下降之间的关系。这些分析包括线性回归 R² 和 T 检验 Cohen's d 计算（补充 C6）。

3. 结果

3.1 样本特征

表 1 列出了阳性治疗组和假性治疗组之间的组间差异。我们没有发现基本社会人口学变量存在明显的组间差异，包括性别（p = 0.315）、部位分布（p = 0.886）、惯用右手（p = 0.778）、年龄（p = 0.418）和教育程度（p = 0.830）。同样，我们也没有发现临床基线差异，只有阳性经颅磁刺激组的 PANSS-PS 评分略高（所有 PANSS-PSActive = 14.4，PANSS-PSSSham = 12.4，p = 0.012）。在 PANSS-NS 和 GS 中也观察到类似的趋势，但均不显著。随着时间的推移，两个治疗组的病情都有类似的改善（PANSS：所有 F ≥ 10.51，所有 p < =0.002；MADRS：F = 17.27，p < =0.002：F=17.27，p＜0.001；GAF：F=16.24，p＜0.001）。两组经颅磁刺激治疗中，PANSS-NS应答者和非应答者的分布相同（活性经颅磁刺激应答者/非应答者：21/24 vs. 假性经颅磁刺激应答者/非应答者：22/25；χ2 < 0.001，p = 0.989）。尽管阳性组的 PANSS-PS 评分在基线时显著较高（t = 2.565，p = 0.012），但在第 21 天时不再具有显著性（t = 0.876，p = 0.383）。

3.2 单模态分类表现

所有模型的性能见表 2。临床模型的 BAC 值为 64.6%（灵敏度：62.5%，特异性：66.7%）。临床 PRS模型的BAC为75.9%（灵敏度：70.8%，特异性：81.0%），比临床模型的性能高出11.3%（p = 0.009）（补充S11）。根据 CVR，最具预测性的前 10 个特征包括明显悲伤（MADRS-1）、无感觉（MADRS-8）、4 个 PRS-EA 评分（phi = 1e-5、1e-4、1e-6、1e-3）、就业状况、婚姻状况、GAF 评分和药物滥用（图 2A-C）。使用 CAT12 r1207 管道处理图像的重新训练 sMRI 模型的 BAC 达到了 80.1%（灵敏度：79.2%，特异性：81.0%）。与我们之前的工作（BAC = 84.4%）相比，我们重新训练的 sMRI 模型的 BAC 降低了 4.3%，但与原始 sMRI 模型相比没有显著的统计学差异（p = 0.108）。

图 2 从临床 PRS 模型和 sMRI 模型中提取的特征重要性和预测模式

3.3 来自 sMRI 模型的神经解剖预测模式

预测阳性经颅磁刺激治疗反应的神经解剖模式涉及四个区域相对较高的 GMD：(1) 小脑，(2) 背内侧和腹外侧前额叶、前极和扣带回皮质，(3) 岛叶、厣、颞极和颞叶内侧皮质，以及 (4) 枕叶上部和下部。在左半球躯体感觉皮层和顶叶皮层发现了预测无反应的较高基线 GMD，并延伸至外侧颞叶和前运动结构以及丘脑核（图 2D）。尽管这些神经解剖学预测模式与我们之前的工作存在一些差异，但两种模式之间并没有统计学上的显著差异（阳性区域 = 0.18，阴性区域 = 0.91）（补充 4.4）。此外，我们还根据杨氏图谱脑网络对神经解剖预测模式进行了分组。默认、边缘和额顶网络与治疗反应的预测尤其相关（补充 S22）。

3.4 堆叠分类器的性能

利用叠加泛化原理对两个模型进行了训练和验证。与单模态分类器相比，这两种堆叠器都获得了更高的预测性能。sMRI 临床叠加器的BAC为89.0%（灵敏度：87.5%，特异性：90.5%），与sMRI模型相比，BAC显著增加了8.9%（p = 0.009）。结合所有数据模式的叠加器使 BAC 达到 89.3%（灵敏度：83.3%，特异性：95.2%）。与 sMRI 模型相比，BAC 提高了 9.2%（p = 0.009）（补充 S11）。它还将预后总结指数（PSI）从 59.9 提高到 78.6，阳性似然比从 4.2 提高到 17.5，预测所需次数从 1.7 减少到 1.3（表 2）。

3.5 顺序分类器的性能

在所有 RESIS 活性组模型中，最优序列模型的 BAC 值最高，达到 93.5%（灵敏度：91.7%，特异性：95.2%）。与 sMRI 模型相比，序列模型的 R2 值增加了 50%，表明与 PANSS-NS 评分降低的相关性更强（sMRI：R2 = 0.271，序列模型：R2 = 0.406，p = 0.0002）（图 3C、D）（补充 S37）。与 sMRI 模型相比，最佳序列模型的 BAC（13.4%）、灵敏度（12.5%）和特异性（4.7%）均有显著提高（p = 0.0001）。从 sMRI 开始（BAC：80.1%，PSI：59.9），31.1% 的患者进入第二种模式（sMRI 临床堆叠器：BAC：89%，PSI：77.7），而只有 11.1% 的患者进入第三种模式（全模态堆叠器：BAC：93.5%，PSI：86.6）（图 3F）（补充 S8）。序列模型 6 的 BAC 为 91.1%（p = 0.21），与仅使用 sMRI 和临床模型的最佳序列模型相当，其中 46.7% 的患者传播到第二阶段临床模型。序列模型 5 通过两个节点实现了 80.7% 的 BAC，在统计学上与 sMRI 模型相似（p = 0.44）。预后序列从临床 PRS模型开始，57.8%的患者发展到sMRI模型（补充S5-10）。

图 3 所有 RESIS 阳性模型的事后模型性能分析

3.6 置换显著性和交叉验证结果

我们对所有 P-CV 阳性组分类器进行了标签置换测试，结果表明，在使用误发现率进行多重比较校正后，它们的 BAC 具有显著性（p 范围：0.001-0.031）。我们还对这些模型进行了特征置换测试，发现除了 sMRI 临床堆叠器（p = 0.89）外，所有预测模式都具有显著性（p 范围：0.001-0.005）（补充 S13）。我们将阳性组模型应用于假性治疗患者，所有模型的 BAC 都在几率水平左右（BAC 范围：50.0%-53.6%）。在假治疗患者身上训练的所有模型的 BAC 值都在偶然水平附近（BAC 范围：45.5%-53.6%），而且没有一个具有统计学意义（P 范围：0.257-0.770）。当我们将假模型应用于阳性治疗的患者时，BAC 值也接近或低于偶然水平（BAC 范围：36%-50%）（表 2）。

3.7 一站点法模型的性能

在使用 LOSO-CV 评估模型的跨站点通用性时，我们观察到以下 BAC 性能：(1) 临床：47.9%；(2) 临床 PRS：67%；(3) sMRI：71.1%；(4) sMRI 临床：63.7%；(5) 所有模式：77.7%；(6) 序列：69.6%：77.7%，(6) 顺序：69.6%。除临床模式的 BAC（p = 0.608）外，其他 LSO 模式的 BAC 均有显著性（p 范围：0.001-0.019）。这些表现与 sMRI（p = 0.725）和临床（p = 0.347）模型中患者部位成员资格的 1000 次随机排列所获得的 BAC 没有差异，表明不存在残余部位效应。临床 PRS模型的观察变量和LSO置换变量之间存在显著差异（p < 0.001），这是因为有15名患者没有PRS数据，在每个训练折叠中使用早期融合对缺失的PRS进行了置换（表2）。

3.8 跨模态相关分析结果

当我们将 GMD 数据与临床特征相关联时，我们发现上、中、下和内侧额叶显示出最显著的相关性（ROI 相关性计数 = 23），包括 MADRS 项目、药物成瘾和滥用以及 PANSS-PS 评分，其次是小脑（ROI 相关性计数 = 18）和颞叶（ROI 相关性计数 = 17）（补充 S26）。小脑体积与 MADRS 项目、GAF 评分、PANSS-GS 和 -PS 评分以及药物和酒精滥用相关。颞叶体积与 MADRS 项目、CGI-S1、PANSS-NS 和药物滥用相关（补充资料 S25）。在大脑网络中，默认网络体积与食欲减退（MADRS-5）、药物成瘾和药物滥用等临床特征的相关性最大。边缘网络体积与表面悲伤（MADRS-1）和报告悲伤（MADRS-2）相关。社会人口学特征与 GMD 之间没有发现明显的相关性（补充 S20）。额叶（ROI 相关计数 = 19）和小脑（ROI 相关计数 = 17）与 PRS 特征的显著相关性最高。除眶内侧回与 PRS-EA 相关外，额叶内的所有 ROI 均与 PRS-SZ 相关。小脑嵴与 PRS-EA 相关，而蚓部与 PRS-SZ 相关（补充 S29）。在大脑网络方面，额叶和躯体运动网络与 PRS-SZ 相关。在脑网络和 PRS-EA 之间没有发现明显的相关性（补充资料 S32）。

3.9 治疗分层效果

补充分析表明，根据我们的阳性经颅磁刺激模型的预测将患者分层至反应组后，治疗反应率明显更高（sMRI 模型：79.2% 的反应者；临床模型：79.2% 的反应者；sMRI 临床模型：79.2% 的反应者）：79.2% 的应答者，sMRI 临床模型82.6%，所有模式叠加：83.3%，顺序模式：90.9%）：与原始非分层患者样本（46.7% 的应答者）相比，应答者占 90.9%（补充 S33-S35）。我们发现，除临床模型外，在所有有效模型中，预测的经颅磁刺激反应可能性与治疗 21 天后 PANSS-NS 评分降低之间均存在明显的线性相关，R² 在 0.20 到 0.41 之间。在所有活动组模型中，我们观察到预测经颅磁刺激有反应的患者有较大的效应大小（Cohen's d > 0.80），而预测无反应的患者有中等（Cohen's d < 0.50）到较小（Cohen's d < 0.20）的效应大小。我们发现，在假模型中，预测的经颅磁刺激反应可能性与治疗 21 天后 PANSS-NS 评分降低之间没有明显的相关性（补充资料 S37）。

4. 讨论

据我们所知，这是第一项成功应用临床、社会人口学、基于 PRS 以及多模态机器学习模型来预测精神分裂症患者对经颅磁刺激治疗的个体反应的研究。通过纳入新的数据域和多模态序列建模策略，我们极大地扩展了之前工作的范围。与之前的工作相比，我们利用序列模型将单模态分类器的预测性能从 80.1% 提高到 93.5%，预后确定性从 69.6% 提高到 86.5%。我们观察到，使用临床和 PRS 数据预测个体经颅磁刺激治疗反应的 BAC 为 75.9%。尽管 LOSO-CV 的训练样本数量较少，但我们的方法有助于在新的研究地点进行有力的推广。

我们的阳性组模型达到了很高的预测准确率，这表明尽管经颅磁刺激治疗反应的个体间差异很大，但有一些基本的神经解剖、临床和遗传模式可以预测个体治疗结果的可能性。此外，对假性治疗患者的机会水平预测结果证实，我们的阳性经颅磁刺激反应模型不仅准确，而且具有治疗特异性。我们的交叉模型验证结果进一步强调了我们模型的治疗特异性。这一点非常重要，因为在 RESIS 试验中，阳性治疗组和假治疗组的 PANSS-NS 在基线和 21 天之间都有显著下降（pactive = 5.24E-05，psham = 3.00E-06）。因此，要区分阳性经颅磁刺激与假经颅磁刺激的疗效，有必要对两组患者采用相同的建模方法。此外，偶然水平的预测表现并不表明假治疗患者的病理生物学与阳性治疗患者不同，而只是表明假干预无法确定一般的结果预测模式。

重要的是，我们的研究表明，多模态预后分类器在诊断成本、可行性和可接受性方面所面临的挑战可以通过使用连续预测策略来缓解。尽管利用脑扫描、基因和血液标记物等数据域的模型显示出较高的预测准确性，但其数据采集和处理成本可能过高，这可能会极大地限制其在临床环境中的应用，尤其是在中低收入国家。然而，目前的证据表明，需要这些多模态技术来解决情感障碍和精神障碍在疾病和治疗过程中的异质性问题，而这种异质性可能是由这些疾病的多因素性质造成的。为了克服这一难题，我们提出了分步序列法，只有在需要进行结论性预测时才要求提供额外数据，从而降低成本。例如，我们的最佳顺序模型将数据采集分为三个步骤，达到了最高的预测准确率，而仅有 11% 的患者需要采集全部数据。与完全堆叠的模型相比，这些顺序模型将大大降低数据采集成本。

我们将精神分裂症的基线神经解剖、临床和遗传变异与经颅磁刺激治疗结果联系起来的多模式结果支持了之前研究提出的假设，即大脑可塑性是经颅磁刺激等脑刺激方法有效性的关键决定因素。Hasan 等人发现，经颅磁刺激对精神分裂症患者的疗效可能取决于大脑边缘和默认模式网络（DMN）的结构可塑性反应能力。在我们的 sMRI 模型中，我们发现预测对阳性经颅磁刺激反应的神经解剖模式与 DMN 和边缘网络以及运动丘脑区域相对较高的 GMD 尤为相关。这些发现可能表明，在这些区域具有较高 GMD 的患者对经颅磁刺激治疗产生反应的可能性更大。相比之下，感觉运动区 GMD 较高的患者可能没有这种优势。此外，在抑郁症和精神分裂症中发现，以背外侧前额叶皮层（DLPFC）为基础的中央执行网络（CEN）与 DMN 的内侧前额叶、前极和内侧顶叶区域之间的反相关耦合受损。研究表明，高频经颅磁刺激可减弱异常升高的缺陷内网络连接，恢复 DMN 和 CEN 的反相关激活模式。我们的 sMRI 模型也确定了这些区域的 GMD 可以预测经颅磁刺激治疗反应。这些区域的 GMD 也与 MADRS 项目高度相关，而 MADRS 项目在临床 PRS 模型中对治疗反应具有高度预测性（补充 S25）。我们的结果与之前的研究结果一致，即 DMN 和边缘网络对经颅磁刺激治疗反应的预测性最强。DMN 和边缘网络与临床变量之间的高度相关性表明，我们的模型所依据的临床预测模式反映了神经解剖学的基本预测模式。

我们观察到，在临床 PRS 模型中，PRS-EA 比 PRS-SZ 更能预测治疗反应。PRS-EA 与大脑代偿潜能、认知能力和白质完整性有关。Richards 等人发现，PRS-EA 与精神分裂症患者的认知能力呈正相关，与 PRS-SZ 无关，这表明 PRS-EA 与该疾病的认知能力有关。Jansen等人发现全局分数各向异性与PRS-EA之间存在正相关，表明较高的PRS-EA与较好的白质完整性相关，与较低的PRS-EA相比，这可能有助于改善精神分裂症患者的治疗反应。

我们的研究存在局限性。由于RESIS是唯一一项对精神分裂症患者经颅磁刺激治疗反应进行调查的多地点随机试验，因此迄今为止还无法进行外部验证。鉴于我们的研究具有较高的预测准确性，而且样本量较小，因此需要进行大规模的国际验证研究，以排除过度拟合的可能性，并评估所提出的模型在我们的发现样本之外的通用性。由于存在祖先异常值，与 sMRI 和临床数据相比，我们没有同等数量的 PRS 数据。这影响了我们的机器学习建模策略，因此无法将独立的 PRS 模型纳入多模态预后系统。我们的研究表明，多基因评分对受教育程度具有很高的预测价值，而受教育程度则受到社会学和遗传学因素的影响。在我们的临床 PRS 模型中，将父母的教育程度作为一个高度预测性变量，强调了这一复杂性。因此，我们关于 PRS-EA 的结论不应被解释为纯粹的遗传特征，而应被解释为受社会和经济因素影响的复杂表型。

最近的研究表明，使用功能磁共振成像和脑电图预测精神分裂症患者对药物治疗和电休克治疗的反应的准确率很高（82.5%-95.8%）。与这些研究结果一致，我们的研究表明，大脑代偿潜能和神经可塑性可能可以预测经颅磁刺激治疗的反应。未来的研究应探讨是否可以利用脑连接性和白质完整性测量进一步加强对经颅磁刺激治疗反应的预测。这将有助于巩固我们的研究结果，并对精神分裂症患者经颅磁刺激治疗反应的个体差异形成更统一的解释。

总之，我们的研究发现，通过使用多模态机器学习策略整合表型、神经影像和遗传数据，可以以最佳方式解读个体对经颅磁刺激的反应变异。此外，我们还证明，在未来的精准精神病学工作流程中，循序渐进的序列方法可以成为一种有效的缓解策略，在最大限度提高预测准确性的同时控制成本和诊断负担。这种方法可以提高此类模型在临床环境中的可接受性和可访问性。我们的研究进一步表明，经颅磁刺激应答者可能具有更强的默认模式和边缘网络适应能力，从而提高了他们对经颅磁刺激应答的可能性。下一步必须开展多地点前瞻性经颅磁刺激验证研究和分层临床试验，覆盖全球不同地区招募的更大规模、更多样化的精神分裂症患者。

参考文献：Multimodal workflows optimally predict response to repetitive transcranial magnetic stimulation in patients with schizophrenia: a multisite machine learning analysis.

医疗大健康

0 人点赞