Nature子刊 | scArches:单细胞数据 × 深度学习新策略

2022-04-01 16:30:06 浏览数 (1)

2021年8月30日,来自德国和美国的多机构研究团队在Nature子刊《Nature Biotechnology》在线发表了题为“Mapping single-cell data to reference atlases by transfer learning”的研究论文,文章提出了一种新的深度学习策略:scArches,使用迁移学习和参数优化来实现高效、分散、迭代的参考图谱构建和新数据集与现有参考图谱的关联,而无需分享原始数据。

目前常规生成的大型单细胞图谱可作为小规模研究分析的参考。然而,由于数据集之间的批量效应、计算资源的有限可用性以及对原始数据的共享限制,使得从参考数据学习变得复杂。通过利用从大型参考数据集学习的权重来增强对目标或查询数据集的学习,ImageNet和BERT等迁移学习(TL)模型已经彻底改变了分析方法,TL改善了小数据集的方法性能(例如聚类、分类和/或注释),并实现了模型共享。最近,TL被应用于scRNA-seq数据,用于去噪、方差分解和细胞类型分类。研究团队提出了一个TL和微调策略:scArches,以利用现有的条件神经网络模型,并将其转移到新的数据集。

scArches是什么?

scArches是一种易于实施的TL方法,通过为新的研究增加输入节点和权重,然后只对这些参数进行微调,从而重复使用神经网络模型。scArches可以扩展任何基于条件神经网络的数据整合方法,以实现分散的参考数据集更新,促进模型重用,并提供一个从参考数据学习的框架。

scArches实现了从查询到参考的迭代式单细胞整合。a. 使用公共参考数据集和相应的参考标签对潜在表征进行预训练;b. 分散的模型构建:用户下载感兴趣的数据集参数,微调模型,并选择上传他们更新的模型供其他用户使用。

简而言之,scArches是一种快速、可扩展的工具,用于更新、共享和使用各种神经网络模型训练的参考图谱。即给定一个基本的参考图谱,scArches允许将此参考图谱作为一个训练网络与其他用户共享,他们还可以使用查询到参考映射和部分权重优化来更新参考图谱,而无需共享数据。因此,用户可以建立自己的扩展参考模型,或在收集数据集时对数据集进行逐步分析,这对于新兴的临床数据集通常至关重要。此外,scArches允许用户通过将新的(例如疾病)数据与共享表示中的健康参考数据集关联起来,从参考数据中学习。由于可灵活选择使用scArches传输的底层核心模型,用户可以学习各种基础模型的参考图谱,也可以在多模态数据上进行训练。

scArches的功能测试

研究团队使用胰腺、小鼠和COVID-19患者免疫细胞的单细胞数据集展示了scArches的功能。scArches能够迭代地更新胰腺参考图谱,在参考图谱和查询数据之间迁移标签或未检测数据模式,并将COVID-19数据映射到健康参考图谱,同时保留疾病特异性变异。

scArches能够将查询数据映射到参考图谱。研究团队应用了带有trVAE、scVI和scANVI的scArches,将两项研究连续整合到包含三项研究的胰腺参考图谱中。

TL 和scArches可实现快速准确的参考映射。最小的微调对模型更新效果最好,将scArches-trVAE应用于大脑图谱,参数最少的模型在整合不同批次的同时保持不同细胞类型之间的差异,与其他方法相比更具有竞争力。得注意的是,强正则化scArches将可训练参数减少了四到五个数量级。总的来说,评估不同基础模型的整合准确率表明,与其他方法相比,使用权重来整合新的查询数据集是最佳的时间和整合性能权衡。

与使用现有数据集成方法的完整集成工作流程相比,scArches可实现高效的参考映射。

scArches 支持从参考到查询的知识迁移。研究团队通过研究将离散信息(如细胞类型标签)迁移到查询数据和调查参考数据集中细胞类型标签的迁移情况表明,与SVM rejection, Seurat version 3和逻辑回归分类器等目前最先进的方法相比,基于scArches的标签投影更具有竞争力。除了标签迁移外,还可以使用参考图谱来估算查询数据中的连续信息,用户可以将scArches与现有的多模态整合架构结合起来。

在参考映射后保留COVID-19细胞状态。在疾病研究中,与健康参考数据的关联性是至关重要的。一个成功的疾病到健康的数据整合应该满足三个标准。(1)保留健康细胞状态的生物变异;(2)整合健康参考和疾病查询之间的匹配细胞类型;(3)保留独特的疾病变异,如在健康参考建立过程中未见的新细胞类型的出现。在测试中,scArches联合嵌入以细微的生物变异为主,虽然参考数据中没有标记疾病状态,但scArches将这些状态与健康参考数据分开,甚至保留了生物变异模式。因此,用scArches进行的疾病到健康的整合符合成功整合的所有三个标准。

此外,研究团队还通过测试scArches映射稀有细胞类型的能力和在查询中解析细微的、转录相似的细胞类型的能力,并在具有连续轨迹的数据上评估scArches,表明scArches对细微的细胞状态很敏感

最后,研究团队展望了scArches进一步应用和开发的两个主要方向。首先,scArches可被应用于生成特定背景的大规模疾病图谱。通过疾病参考资料之间的映射,可以在单细胞水平上评估这些疾病的相似性,从而为寻找机制、恢复疾病状态或研究扰动提供信息,例如用于药物再利用。模型生物对疾病研究的适用性可以直接转化到人类环境中,例如将小鼠单细胞肿瘤数据投射到参考的人类患者肿瘤图谱上,可能有助于确定准确的肿瘤模型,包括患者微环境的理想分子和细胞特性。在参考模型中纳入额外的协变量作为条件神经元,将允许对某种扰动或药物的治疗反应进行建模。其次,研究团队设想将scArches应用于组装多模式的单细胞参考图谱,以包括表观基因组、染色体构象、蛋白质组和空间组学

scArches可以在以下网址获取 :https://github.com/theislab/scarches

复现结果的代码可在如下网址获取:

https://github.com/theislab/scarches-reproducibility

参考文献

Lotfollahi, M., Naghipourfar, M., Luecken, M.D. et al. Mapping single-cell data to reference atlases by transfer learning. Nat Biotechnol (2021).

图片来源于 Nat Biotechnol官网和参考文献,如有侵权请联系删除。

0 人点赞