编译 | 姜晶 审稿 | 任宣百
本文介绍由德国慕尼黑工业大学的Fabian J. Theis等人发表于Nature Biotechnology 的研究成果:研究人员报道了一种深度学习策略scArches (single-cell architectural surgery),把查询数据集映射到参考图谱上。scArches不需要原始数据,仅在现有参考图谱上应用迁移学习和参数优化高效分析新数据。利用小鼠大脑、胰腺、免疫和整个有机体图谱例子,作者表明scArches能在去除批次效应的同时保留了生物状态信息。最后,使用scArches把新冠疾病映射到健康图谱上,其保留了COVID-19的疾病变异,从而能够发现疾病特定细胞状态。scArches将通过迭代构建、更新、共享和有效使用参考图谱来促进合作项目。
1
简介
人类细胞图谱(Human Cell Atlas)是世界上最大的单细胞参考图谱,它包含有关组织、器官和生长发育阶段的数百万个细胞,该参考图谱有助于理解细胞的异质性。从参考图谱中学习需要把查询数据集映射到该参考图谱上,然而,查询和参考数据通常是由不同的实验室在使用不同实验协议下生成的,因此有批次效应。虽然使用数据整合方法可以解决这个问题,但是这需要访问所有相关数据,这可能会受到数据共享法律限制的阻碍。因此,从参考图谱中学习仍具有挑战性。迁移学习(TL)已应用于scRNA-seq数据,用于去噪、方差分解和细胞类型分类,然而,目前用在基因组学中的TL方法没有考虑参考和查询数据的内部和它们之间的技术影响,这些可能会导致对查询数据的虚假预测。尽管如此,用在单细胞基因组学上的数据整合的深度学习模型仍表现出卓越的性能。
本文作者提出了一种TL和微调策略,以利用现有的条件神经网络模型并将它们迁移到新的数据集,这个过程称为“architecture surgery”,这个策略应用在他们提出的scArches中。该团队提出的scArches是一种快速且可扩展的工具,用于更新、共享和使用参考图谱。具体来说,给定一个基础参考图谱,scArches能让用户把这个参考作为训练网络与其他用户共享,其他用户在无需共享他们的数据的情况下,可以使用query-to-reference映射和部分权重优化更新这个参考。此外,scArches允许用户从参考数据中学习。作者使用从胰腺和整个小鼠图谱和来自COVID-19患者的免疫细胞的单细胞数据集展示scArches的特征。scArches能够迭代更新胰腺参考、在参考图谱和查询数据之间迁移标签或未测量数据模态,并将COVID-19数据映射到健康参考上,同时保留疾病特异性变异。
2
结果
scArches将查询数据映射到参考图谱
考虑具有特定组织或生物体的N个“参考”scRNA-seq数据集的场景。整合此类数据集的一种常见方法是使用条件变分自编码器(CVAE)(例如,单细胞变分推断(scVI)、迁移变分自编码器(trVAE)),为每个数据集分配一个分类标签Si与研究标签相对应。这些研究标签可以索引批次IDs(即样本、跨实验室的实验或测序技术)、生物批次、扰动。使用参考研究S1:N(图1a)训练CVAE模型会产生潜在空间,会减少条件标签(即批次或技术)的影响。因此,作者可以使用这种嵌入用于进一步的下游分析,例如可视化或识别细胞类或子类。
Architectural surgery是一种TL方法,它使用现有的参考模型并调整这些模型用以查询到参考的映射。在多个参考数据集上训练现有的自编码器模型后,architectural surgery是仅通过微小的权重调整(微调)迁移这些训练过的权重并添加条件节点以将新研究映射到此参考的过程。虽然这种方法广泛适用于任何深度条件模型,但在这里作者将scArches应用于三个无监督模型(CVAEs、trVAE、scVI)、一个半监督(scANVI)算法和一个多模态(totalVI)算法。
通过调整现有的参考构建方法,将它们作为“基础模型”合并到scArches包中。在scArches中构建的参考模型可以通过Zenodo上传到模型存储库。为了使用户能够把新数据集映射到自定义参考图谱上,建议共享模型权重,可以从模型存储库下载并使用新查询数据进行微调。这种微调通过为每个查询数据集添加一组称为“适配器”的可训练权重来扩展模型。在经典条件神经网络中,一个研究对应于一个输入神经元。由于经过训练的网络具有严格的architecture,因此不允许在给定的网络中添加新的研究。为了克服这个问题,作者实施了architectural surgery方法,把新的研究标签作为新的输入节点。这些具有可训练权重的新输入节点就是前面提到的适配器。重要的是,适配器是可共享的,允许用户通过下载参考图谱、为该参考选择一组可用适配器并最终通过训练查询适配器合并用户自己的数据来定制共享参考模型(图1b)。
图1 scArches迭代查询到参考的单细胞整合
为了说明这个方法的可行性,作者应用装载trVAE、scVI和scANVI算法的scArches,将两个研究连续整合到包含三个研究的胰腺参考图谱中(图1c)。为了模拟查询数据包含参考中不存在的新细胞类型的场景,删除训练参考数据中的所有alpha细胞。作者首先在scArches 框架内训练不同的现有参考模型以整合训练数据并构建一个参考图谱(图1d、e,第一列)。构建参考图谱后,使用第一个查询数据(SMART-seq2(SS2))微调参考模型(图1d,e,第二列),并使用本研究和第二个查询数据(CelSeq2,图1d,e,第三列)迭代更新参考图谱。每次更新后,模型覆盖查询和参考中所有共享细胞类型的数据,同时在查询数据集中产生一个单独且混合良好的alpha细胞簇(图 1d、e 中的黑色虚线圆圈)。
最小微调在模型更新上的表现
使用十个指标评估参考映射、数据整合性能,即消除批次效应和保留生物变异。通过主成分回归、批次混合熵、k-最近邻(kNN)图连通性和平均轮廓宽度(ASW)评估批次效应去除。通过全局聚类匹配(调整后的兰德指数(ARI)、归一化互信息(NMI))、局部邻域保护(kNN准确度)、细胞类型ASW和稀有细胞类型指标(孤立标签分数)评估生物保护。
除了仅微调新添加研究(适配器)的权重之外,作者还考虑了(1)在编码器和解码器中训练输入层而其余权重被冻结,(2)微调模型中所有权重。作者使用来自两个小鼠大脑研究的250,000个细胞为每个基础模型训练了一个参考模型。接下来,作者比较了将两个查询数据集映射到参考数据时候选微调策略的性能。将scArches trVAE应用于脑图谱,参数最少的模型与其他方法在整合不同批次的同时保持不同细胞类型之间的区别时具有可比性(图2a-c)。值得注意的是,scArches将可训练参数减少了四到五个数量级(图2d)。总体而言,评估不同基础模型的整合准确性表明,与其他方法相比,新查询数据集结合适配器方法有最佳时间和整合性能(图2e)。
图2 TL和architecture surgery实现快速准确的参考映射
Architectural surgery实现有效的数据整合
要使用 scArches,需要一个参考图谱模型。scArches参考映射的质量取决于为基础模型选择的参数化和architecture以及参考数据的质量和数量。为了确定scArches参考映射对所用参考模型的敏感性,作者探索需要多少参考数据才能成功实现参考映射。因此,作者构建一个由骨髓和外周血单核细胞(PBMC)组成的人类免疫细胞数据集。通过在参考构建中逐步包含更多研究,同时将其余研究用作查询数据来构建质量不断提高的参考模型。为了进一步挑战该模型,作者为每项研究添加了一种独特的细胞类型,同时将其从其余研究中移除。在实验中,直到至少数据的50%(~10,000个细胞)用作参考时,scArches scANVI的参考映射精度才会显着提高(图3a-c)。这一观察结果适用于其他基本模型,作者同样观察到了模型的鲁棒性(图3d)。
参考映射旨在在不共享原始数据且计算资源有限的情况下生成整合数据集。作者使用包含大约三分之二批次的参考模型执行scArches参考映射,并将其与现有的完全整合自编码器方法和其他现有方法进行比较。scArches参考映射模型的总体得分与从头整合的得分相似(图3e)。
图3 与使用现有数据整合方法的完整整合流程相比,scArches实现高效的参考映射
scArches实现从参考到查询的知识迁移
查询到参考映射的最终目标是利用和传输来自参考图谱的信息。这种知识迁移可以用于注释查询数据的细胞类型标签或通过预测连续信息来分析新的查询数据集。
作者首先研究迁移离散信息到(例如,细胞类型标签)查询数据。作者使用最近发表的 Tabula Senis等人研究作为参考。查询数据包含来自24个组织的90,120个细胞,其中包括作者从参考数据中排除的组织。scArches trVAE准确地整合了跨时间点和测序技术的查询和参考数据,并创建了一个清晰的细胞簇(n = 9,330)(图4a,b )。
然后作者从参考数据集中迁移细胞类型标签。查询中的每个细胞都使用其在参考数据集中最近邻居进行注释。此外,每个细胞对应一个不确定性分数,同时将不确定性超过0.5的细胞标记为未知。scArches 在所有组织中取得了约84%的准确度(图4c)。此外,大多数错分的细胞和来自未知组织的细胞获得了高不确定性分数(图4d )。总体而言,跨组织的分类结果表明大多数组织的预测准确度很高(图4e),同时也标记出了未映射到参考的细胞。因此,scArches可以成功地将大规模复杂的查询数据集合并到参考图谱中。
除了标签迁移之外,还可以使用参考图谱来推断查询数据中的连续信息。事实上,将scArches与现有的多模态整合架构相结合,如 totalVI。利用scArches totalVI,作者使用两个公开可用的PBMC数据集通过构建与参考测序(CITE-seq)相结合的转录组和抗原表位细胞索引(图4f)。接下来,作者将查询scRNA-seq数据整合到参考图谱中(图4g),并使用多模态参考图谱为查询数据集预测缺失的蛋白质数据。使用预测的蛋白质丰度,可以区分观察到的主要群体,如T细胞、B细胞和单核细胞(图4h)。
图4 scArches成功地将知识从参考迁移到查询
参考映射后保留COVID-19细胞状态
在疾病研究中,健康参考数据contextualization是必不可少的。一个成功的疾病到健康数据整合应满足三个标准:(1)保留健康细胞状态的生物变异;(2)整合健康参考与疾病查询相匹配细胞类型;(3)保留不同的疾病变异,例如构建健康参考过程中未发现的新细胞类型。为了展示如何用scArches探索疾病contextualization,作者整合来自骨髓、PBMC和正常肺组织的细胞构建参考(n = 154,723;图5a-c),然后将其映射到从(1)健康对照和(2)中度和(3)重度COVID-19患者(n = 62,469)收集的包含肺泡巨噬细胞和其他免疫细胞的数据集上。作者评估整合查询批次到参考中的性能。scArches成功地整合来自不同数据集的肺泡巨噬细胞并保留了它们之间的生物变异。如源自单个个体的活性TRAM(FABP4 IL1B CXCL5 )在TRAM内形成了一个独特的子类(图5a-d)。
图5 scArches解决重度COVID-19患者查询数据映射到健康参考并揭示重要细胞状态
3
总结
scArches可以做些什么:
- 构建单模态或多模态(CITE-seq)参考图谱并共享训练的模型和数据。
- 下载您感兴趣图谱的预训练模型,使用新数据集对其进行更新并与您的合作者共享。
- 映射和整合查询数据集到参考上,并使用潜在表示进行下游分析,例如: 检测差异、聚类、分类。
该团队使用他们提出的scArches算法研究几个COVID-19肺支气管样本。使用单细胞转录组学将COVID-19患者的细胞与健康参考细胞进行了比较。对于轻度和重度COVID-19病例,该算法都能够将疾病细胞与对照组区分开来,从而使用户能够精确定位需要治疗的细胞。
该团队的目标是使细胞参考图谱像基因组参考一样简单易用。研究人员可使用scArches来形式化和简化查找过程以进行细胞索引。
参考资料
Lotfollahi, M., Naghipourfar, M., Luecken, M.D. et al. Mapping single-cell data to reference atlases by transfer learning. Nat Biotechnol (2021).
https://doi.org/10.1038/s41587-021-01001-7
代码
https://github.com/theislab/scarches
数据
https://github.com/theislab/scarches-reproducibility