编译 | 姜晶 审稿 | 任宣百
本文介绍由英国利兹大学圣詹姆斯医学研究所、德国国家肿瘤疾病中心的Jakob Nikolas Kather住院医师团队发表在Nature Medicine的研究成果。作者展示了群体学习(SL)在5000多名患者的千兆像素组织病理学图像的大型多中心数据集中上的成功应用。作者表明,使用SL训练的人工智能(AI)模型可以直接从结直肠癌H&E染色的病理切片上预测BRAF突变状态和微卫星不稳定性。作者在北爱尔兰、德国和美国三类患者人群中训练AI模型,并在来自英国的两个独立数据集中验证了预测性能。数据显示,经过SL训练的AI模型优于大多数本地训练的模型,并与在合并数据集上训练的模型表现相同。此外,作者展示了基于SL的AI模型是数据高效的。未来,SL可用于训练分布式AI模型,用于任何组织病理学图像分析任务,从而无需数据传输。
1
简介
人工智能有望在未来10年内对医疗实践领域产生深远影响。尤其是,医学影像已经被人工智能解决方案的应用所改变。数字化组织病理学图像包含可以被AI提取的大量临床相关信息。2018年,一项具有里程碑意义的研究首次证明了这项技术在肺癌治疗中的原理。此后,数十项研究将这些发现扩展到结直肠癌(CRC)、胃癌、膀胱癌、乳腺癌和其他肿瘤类型,将H&E染色组织切片的实用性从常规肿瘤诊断和亚型扩展到直接预测分子改变的来源。AI模型需要大量数据。在组织病理学中,AI模型的性能随着训练集的大小和多样性而增加。训练临床有用的AI模型通常需要与中央存储库共享患者相关数据。在实践中,这种数据共享面临法律和后勤障碍。机构之间的数据共享可能要求患者放弃其数据控制权。这个问题已经通过(集中式)联邦学习(FL)得到解决,其中多个AI模型在不同的计算机(对等)上独立训练。在FL中,节点之间不共享任何输入数据,只共享学习到的模型权重。然而,中央协调员根据所有训练模型的学习过程,垄断控制和商业开发。
在过去的2年中,FL的这一限制已通过一组新的去中心化学习技术得到解决,包括区块链FL和SL。在SL中,AI模型在本地进行训练,模型集中组合,无需中央协调。在医疗健康数据分析中,SL在训练多中心AI模型方面实现了平等,并创造了强大的协作动力,而无需将数据或模型集中在一个地方。这可能会促进多方之间的协作,从而产生更强大、更可靠的人工智能系统。然而,SL尚未系统地应用于肿瘤学中的医学图像数据。特别是,它尚未应用于组织病理学图像,这是一种具有高信息密度的常见数据模式。
在这项研究中,作者研究了SL是否可用于直接从传统组织学图像中基于AI预测分子改变。为了对此进行调查,作者进行了一项回顾性多中心研究。由于病理学服务目前正在进行数字化转型,将AI方法嵌入常规诊断工作流程最终可以实现对患者的预筛查,从而减少昂贵的基因检测数量并提高临床医生获得结果的速度。通过对数千而不是数百名患者进行训练,此类系统的预测性能显着提高。作者假设SL可以替代从组织病理学中的大量患者人群中收集数据,在不集中控制最终模型的情况下提高预测性能和通用性。
2
结果
SL可用于训练病理AI模型
作者开发了一种具有SL能力的AI pipeline,用于基于组织病理学图像对实体瘤进行分子分类(图1a、b)。作者收集了三个用于训练的大型数据集:Epi700(661名来自北爱尔兰的患者)、DACHS(2448名来自德国西南部的患者)和TCGA(632名患者)(图1c)。每个数据集都存储在物理上独立的计算服务器中。然后,作者在一项多中心研究中使用作者的分析流程直接从CRC组织病理学整张幻灯片图像(WSI)上预测遗传改变,在外部数据中测试所有模型(图1d)。首先,分别在三个训练组中训练本地AI模型。其次,将它们的性能与合并模型的性能进行了比较,该模型在一台计算机上对所有三个训练组进行了训练。第三,作者将合并模型的性能与三个SL AI模型的性能进行了比较。当具有最小训练群体(TCGA)的合作伙伴到达最后一个epoch结束时,获得基本模型检查点 1(b-chkpt1)(图1e)。基本模型检查点 2(b-chkpt2)是在具有第二小的训练群体(Epi700)的伙伴到达最后一个epoch结束时获得的。最后,加权SL通过增加较小群体的epoch数量同时降低最终模型中的权重因子来平衡群体规模的差异,从而产生加权模型检查点(w-chkpt)(图1f)。
图1 深度学习和SL工作流程示意图
SL模型可以预测BRAF突变状态
作者评估在QUASAR群体中预测BRAF突变状态的患者水平性能(1774名来自英国的患者)。作者发现,当仅在Epi700、DACHS和TCGA上进行训练时,局部模型分别获得AUROC为0.7358 ± 0.0162、0.7339 ± 0.0107和0.7071 ± 0.0243(图2a)。在中央服务器(合并模型)上合并三个训练群体将预测AUROC提高到0.7567 ± 0.0139(图2a)。这与SL AI模型的性能进行了比较。b-chkpt1在测试集上预测的AUROC为0.7634 ± 0.0047,显着优于各个局部模型,但与来自合并模型的结果没有显着差异。b-chkpt2实现了类似的性能:该模型的AUROC为0.7621 ± 0.0045,明显优于每个局部模型,与合并模型的结果相当。最后,作者评估了加权SL模型(w-chkpt) 的性能,该模型用于BRAF突变预测。在这项任务中,w-chkpt的AUROC为0.7736 ± 0.0057。这是对所有其他模型的性能的显着改进,包括Epi700、DACHS和TCGA的局部模型,以及合并模型,b-chkpt1和b-chkpt2。
SL模型可以预测微卫星不稳定性
接下来,作者在另一个基准任务中测试了作者的预测pipeline:在临床试验群体QUASAR(图2b)和基于人群的群体YCR BCIP(图2c)中预测微卫星不稳定性(MSI)/错配修复缺陷(dMMR)状态。在QUASAR中,b-chkpt1和b-chkpt2预测的AUROC分别为0.8001 ± 0.0073和0.8151 ± 0.0071,显着优于在Epi700上训练的单群体模型(AUROC为0.7884 ± 0.0043)。同样,SL优于在TCGA上训练的MSI预测模型。然而,在最大数据集(DACHS)上训练的模型与QUASAR(图2b)和YCRBCIP(图2c)中的b-chkpt1或b-chkpt2之间没有显着差异。对于QUASAR中的MSI预测,w-chkpt显着优于本地Epi700模型和本地TCGA模型,而性能差异与DACHS模型相比没有统计学意义。与合并模型相比,w-chkpt在QUASAR或YCR BCIP中的MSI预测没有显着差异。换句话说,合并模型和w-chkpt的性能相当(图2b,c)。总之,这些数据表明,群体训练的模型始终优于本地模型,并且在病理图像分析中与集中式模型的表现相当。
图2 通过局部、合并和群体模型基于AI的分子改变预测
SL模型是数据高效的
从小规模数据集学习是医学AI的一个挑战,因为预测性能通常会随着训练数据集大小的增加而增加。因此,作者调查了SL是否可以弥补每个机构仅使用一小部分患者进行训练时发生的性能损失。作者发现,将每个训练集中的患者数量限制为400、300、200和100会显着降低单数据集(本地)模型的预测性能。例如,对于QUASAR中BRAF突变状态的预测,仅对Epi700、DACHS或TCGA中的一部分患者进行训练显着降低了预测性能并增加了模型的不稳定性(图3a)。特别是,对于在最大群体(DACHS)上训练BRAF预测模型,在对所有患者进行训练时,AUROC为0.7339 ± 0.0108,而在限制患者数量为200时,AUROC为0.6626 ± 0.0162,性能明显下降。当每个群体只有50名患者时,在合并数据上训练的模型的性能损失不太明显 (图3a)。SL能够挽救性能:每个群体减少到100名患者,加权SL(w-chkpt)保持高性能,其中100名患者的AUROC为0.7000 ± 0.0260,200名患者的AUROC为0.7139 ± 0.0149,300名患者的AUROC为0.7438 ± 0.0093。这些模型的性能与合并模型的性能没有统计学上的显着差异(图3a)。同样,当每组群体低至100名患者时,b-chkpt1和b-chkpt2保持高性能(与合并模型相比)。对于QUASAR中的MSI预测,在每组群体只有300名患者时,w-chkpt性能与合并模型的性能相当。对于200名或更少的患者,合并模型优于局部模型和群体模型(图3b)。同样,对于YCR BCIP中的MSI预测,随着患者从训练集中剔除,单群体表现下降;合并模型和群模型可以部分挽救这种性能损失,尽管合并模型在本实验中优于群模型(图3c)。总之,这些数据表明,SL模型对用于预测BRAF突变状态的小型训练数据集具有有很强的适应性,对用于预测MSI状态的小型训练数据集具有部分适应性。
图3 SL模型是数据高效的
SL模型学习似是而非的模式
医学AI模型不仅应该具有高性能,还应该具有可解释性。作者通过可视化整个幻灯片预测热图来,在毫米级上评估模型预测(图2d)。这些图通常显示出其中一类的明显和同质优势。此外,作者通过提取在300名患者和来自本地训练群体(图4a-c)、合并群体(图4d)和群模型b-chkpt1、b-chkpt2和w-chkpt(图4e、f) 的所有患者上训练的模型的得分最高的图像块,在微米尺度上评估模型预测。作者发现在许多情况下,存在已知与BRAF突变状态或MSI/dMMR相关的组织学表型,例如粘液组织学和/或分化不良。然而,作者也观察到TCGA模型识别出的高分斑块不能代表BRAF突变的经典组织病理学特征;实际上,该组中9个高分瓦片中有7个显示出大量伪影或没有肿瘤组织(图4c)。模型将此类低信息斑块标记为高度相关的观察结果表明,仅在TCGA上训练的模型无法充分学习检测相关模式,这可能是因为TCGA群体中存在明显的批次效应。作者通过一项系统的读者研究进一步调查了检测模式的合理性,在这项研究中,一位盲法专家对1400个高评分图像块中对五个相关模式或结构的存在进行评分。总之,这些数据表明,基于SL的AI模型可以生成对人类专家来说可解释和合理的预测,并且在某些情况下超过了盲法试验中评估的本地训练模型的合理性。
图4 用于BRAF预测的高度预测图像块
3
总结与讨论
目前,医疗保健数据的总量正在以指数速度增长。在组织病理学领域,世界各地的机构都在将他们的工作流程数字化,从而产生大量数据。这些图像数据可以以新的方式使用以改善患者的治疗效果。然而,人工智能需要大量多样的数据集,其性能随训练数据的数量而变化。为了训练有用且可推广的AI模型,机构应该能够在不损害患者隐私和信息治理的情况下进行协作。2016年,FL被提出作为这种隐私保护分布式AI的技术解决方案。然而,FL依赖于一个中央协调者,该协调者垄断了由此产生的AI模型,将开发权集中在单个实体的手中。因此,FL消除了数据共享的需要,但并没有解决信息治理的问题。然而,SL提供了治理问题的解决方案,提供了一种真正的协作和民主方法,在这种方法中,合作伙伴在同一水平上进行沟通和工作,共同平等地培训模型并分享收益。最近,SL已经过测试,可通过转录组分析或X射线图像检测COVID-19、肺结核、白血病和肺部病变。在这里,作者证明使用SL可以实现基于AI的实体瘤临床生物标志物预测,并产生高性能模型,用于基于病理学预测BRAF和MSI状态,这是CRC中两个重要的预后和生物标志物。将来,作者的方法可以应用于计算病理学中的其他图像分类任务。SL使研究人员能够使用小型数据集来训练AI模型;在许多小数据集上共同训练模型相当于在单个大数据集上训练模型。这也降低了硬件要求,有可能使SL成为低收入和中等收入国家研究人员的选择。
研究限制:
- 作者没有明确调查差异隐私,但这可以纳入未来的工作。
- 模型性能需要在临床实施之前进一步提高。
解决方案:
- 尽管即使根据美国的《健康保险流通与责任法案》,没有相关元数据的组织学图像也不被视为受保护的健康信息,但任何来自共享模型权重更新的成员推断攻击或模型反转攻击都可以通过实施额外的差分来排除隐私措施。
- 对SL系统的其他技术改进。 例如,可以探索不同的加权因子。 高质量数据集的权重可能高于低质量数据集,而更多样化的数据集的权重可能高于同质数据集。
- SL使多个合作伙伴能够在不共享数据的情况下联合训练模型,从而有可能促进此类大型训练群体的收集。
最后,之前关于医疗AI中SL的概念验证研究依赖于单个裸机设备上的虚拟机。在这里,作者通过使用三个物理上独立的设备并在很大程度上使用开源软件来实现作者的代码来改进这一点。尽管这表明SL在物理上不同的位置之间是可行的,但将SL服务器嵌入多个国家不同机构的现有医疗保健基础设施中可能需要大量的实际工作,理想情况下应该在研究联盟中解决。为了评估SL项目生成的模型数据的可互换性,需要在大规模的国际合作中验证该技术。作者的研究为未来的此类工作提供了基准和明确的指导方针,最终为在日常工作流程中建立SL铺平了道路。
参考资料
Saldanha, O.L., Quirke, P., West, N.P. et al. Swarm learning for decentralized artificial intelligence in cancer histopathology. Nat Med (2022). https://doi.org/10.1038/s41591-022-01768-5
本文相关数据链接:https://portal.gdc.cancer.gov
https://cbioportal.org
http://www.nibiobank.org/for-researchers
https://medicinehealth.leeds.ac.uk/dir-record/research-groups/557/pathology-and-data-analytics
http://dachs.dkfz.org/dachs/kontakt.html
代码
https://github.com/KatherLab/SWARM
https://github.com/KatherLab/HIA
https://github.com/KatherLab/preProcessing
https://github.com/HewlettPackard/swarm-learning