编译 | 程昭龙 审稿 | 林荣鑫,王静
本文介绍由德国计算生物学研究所的M. Colomé-Tatché和Fabian J. Theis共同通讯发表在 Nature Methods 的研究成果:作者对来自23篇出版物的85批基因表达、染色质可及性和模拟数据的68种方法和预处理组合进行了基准测试,总共代表了分布在13个图谱集成任务中的超过120万个细胞。作者使用14个评估指标,根据可伸缩性、可用性及其在保留生物变异的同时消除批次效应的能力对方法进行评估。研究表明,高度可变的基因选择提高了数据集成方法的性能,而数据缩放推动方法优先考虑批次去除而不是保留生物变异。总体而言,scANVI、Scanorama、scVI 和 scGen 表现良好,尤其是在复杂的集成任务上,而单细胞 ATAC 测序集成性能受特征空间选择的影响很大。该文免费提供的 Python 模块和基准测试管道可以为新数据确定最佳的数据集成方法,还能对新开发的方法进行基准测试。
1
简介
单细胞组学数据集通常是包括跨越地点、实验室和条件的样本,从而使其复杂性不断增加,这种复杂性在细胞图谱中会不可避免的产生批次效应。因此,单细胞RNA测序(scRNA-seq)数据分析的一个重大挑战就是:开发克服这些数据中复杂的、非线性的、嵌套的批次效应的数据集成方法。
批次效应是指由于处理不同批次的细胞而导致的数据中不必要的技术变化。这些影响可能源于测序深度、读取长度、样品采集和处理、样品成分、采样时间等等,此外,组织、空间位置、个体差异等生物因素也可以视为批次效应。
单细胞数据集成方法旨在结合高通量测序数据集或样本,以产生用于下游分析的自洽的数据版本。到目前为止至少有49种可用的scRNA-seq 数据集成方法,对集成方法进行基准测试有助于在缺乏客观指标的情况下,公正的选择集成方法。以往对数据集成的基准测试方法的研究主要集中在scRNA-seq中更简单的去除批次效应问题上,这些研究只对具有低批次或生物复杂性的简单集成任务方法进行了基准测试,并且没有比较不同的输出选项。
因此作者提出了对复杂集成任务中数据集成方法的基准研究。具体而言,是针对scRNA-seq和单细胞ATAC测序(scATAC-seq)数据,在13个数据集成任务中对16个流行数据集成工具进行基准测试,这些任务包括多达23个批次和100万个细胞。作者选择了12个单细胞数据集成工具进行对比。此外,作者使用14个指标来评估集成方法在保留生物变异的同时消除批次效应的能力,并特别关注通过轨迹或细胞周期变化的新集成指标来评估细胞身份标签之外的生物变异保守性。结果表明,Scanorama和scVI 表现良好,尤其是在复杂的集成任务上。如果细胞注释可用,scGen和scANVI在任务中的表现优于大多数其他方法,并且Harmony和LIGER对窗口和峰值特征空间上的scATAC-seq数据集成是有效的。
2
结果
单细胞集成基准测试
作者在13个预处理集成任务上对16种流行的数据集成方法进行了基准测试,其中包含两个模拟任务、五个scRNA-seq任务和六个scATAC-seq任务(图1)。每项任务都提出了一个独特的挑战,例如,由协议和供体引起的嵌套批次效应,不同数据模式下的批次效应以及高达100万个细胞的可扩展性。这些挑战围绕着集成来自多个实验室的特定生物逻辑系统上的数据展开(表1)。
为了评估了每种集成方法的准确性、可用性和可扩展性,作者使用了分为两类的14个性能指标评估集成精度:去除批次效应和保存生物变异。通过k-最近邻批次效应测试 (kBET)、k-最近邻 (kNN) 图连通性和各批次间的平均轮廓宽度 (ASW) 测量每个细胞身份标签的批次效应去除情况,使用图集成局部逆辛普森指数(LISI)和PCA回归进一步测量独立于细胞身份标签的批次效应去除情况。对于单细胞数据中生物变异的保守性,作者使用了经典的标签保守性指标,它们评估了局部邻域、全局聚类匹配(调整的兰德指数(ARI)、归一化互信息(NMI))和相对距离(细胞类型ASW)以及评估稀有细胞身份注释(孤立标签评分)的两个新指标和三个新的无标签保守性指标:(1)细胞周期变化保守性,(2)集成前后每批高可变基因(HVGs)的重叠,(3)轨迹保守性。
对数据集成方法进行基准测试的两个核心挑战是:(1)输出格式的多样性,(2)集成前对数据预处理的要求不一致。作者以三种方式应对上述挑战,首先,将所有集成输出视为单独的集成运行;其次,开发了kBET和LISI 评分的新扩展,就是以一致的方式处理基于图的输出、联合嵌入和校正数据矩阵;最后,在基准测试中包含了预处理决策,即每种集成方法都在有无缩放和 HVG 选择的情况下运行。作者认为,一些方法不能接受缩放的输入数据(LIGER、trV AE、scVI和scANVI),而其他方法需要细胞类型标签作为输入(scGen 和 scANVI)。因此,作者对每个集成任务进行了多达68次数据集成测试,尝试了590次集成运行。
表1用于基准测试的集成任务
图1 设计单细胞集成基准测试
对数据集成进行基准测试:人体免疫细胞任务
为展示评估流程,作者对十个批次包含外周血和骨髓细胞的五个数据集的人类免疫细胞集成任务进行基准测试。结果表明,单细胞数据集成方法Scanorama、FastMNN、scANVI和Harmony表现最佳。通过将度量结果(图2a)与集成数据图(图2b、c)进行比较得出:所有高性能方法都成功地消除了个体和平台之间的批次效应,同时保留了细胞类型和细胞亚型的生物变异水平。作者还评估了轨迹推断的保守性,在这项集成任务中,从造血干细胞和祖细胞到巨核细胞祖细胞和红细胞祖细胞的红细胞发育,发现所有表现最好的方法都表现出很高的轨迹保守性分数。
图2对人类免疫细胞任务的结果进行基准测试
平衡批次去除和生物变异保守性
在五个scRNA-seq任务和两个模拟任务的结果表明,集成任务的不同复杂性会影响集成方法的排名。在更复杂的集成任务中,SAUCIE、LIGER、BBKNN 和Seurat v3等方法倾向于消除批次效应而不是保护生物变异,但DESC和Conos与之相反,而Scanorama、scVI和FastMNN却能平衡这两个目标,其他方法在每个任务中达到不同的平衡(图3a)。在生物效应和批次效应重叠的情况下,这种平衡尤为明显。
集成任务中最具挑战性的批次效应是由物种、采样位置和单核与单细胞数据带来的,这些批次效应因素也可以解释为生物信号而不是技术噪音。虽然集成任务中表现最好的方法在很大程度上无法集成这些效果(除非它们收到细胞身份注释),但LIGER、BBKNN和Seurat v3 RPCA 却成功集成了。但缺点是,这些集成结果通常会随着批次效应一起去除生物变异,这也展示了上述批次去除和生物变异保守性之间的一种权衡。
有利于生物保守性和输出校正表达矩阵的方法倾向于更好地保存细胞状态变化。实际上,Scanorama、ComBat和 MNN在保存整合数据中的细胞周期变化和HVGs方面始终表现良好,而在整体高性能的方法Scanorama、scGen和FastMNN中,轨迹结构保守性稍好一些,而表现不佳的方法在无标签指标中表现一致。总体而言,由于强大的物种批次效应,跨物种执行集成轨迹具有挑战性。
缩放将集成性能转向批次删除
鉴于缺乏预处理原始数据以进行数据集成的最佳实践,作者评估了集成方法在HVG选择或缩放方面是否表现更好。比较仅在一个预处理参数上不同的集成运行之间的性能,结果发现 HVG选择通常优于RNA和模拟任务的完整基因集的数据集成。并且,实验结果还表明一种方法在先前的缩放中是否表现得更好取决于所选择的方法(图3b),独立于方法的缩放导致了更高的批次去除得分和较低的生物变异保守性得分。
图3 RNA和模拟集成任务的基准测试结果
scANVI、Scanorama和scVI在scRNA-seq中表现最好
为了评估scRNA-seq任务和模拟任务的数据集成方法的整体性能,可以根据方法的总体得分对方法进行排序(图3b)。由于任务的复杂性会影响方法的适用性,作者仅根据更能代表分析人员通常面临的挑战的真实数据任务,对不包括模拟的方法进行排序。实验结果得出,Scanorama、scANVI和scVI输出的嵌入表现最好,而SAUCIE和DESC表现不佳。同样,在细胞注释的辅助下,基于深度学习的方法可以产生集成输出,即使在最强的批次效应中也可以集成,同时保留生物变异。其他基于自动编码器的框架,往往在具有更多细胞和复杂批处理结构的任务中表现更好。
scATAC-seq集成性能取决于特征空间
随着数据集可用性的不断增加,去除scATAC-seq数据中的批次效应也正成为一个令人感兴趣的应用。为了测试scRNA-seq集成方法的性能能否转移到scATAC-seq数据上,作者集成了三组由不同技术生成的小鼠大脑染色质可及性数据集。与仅在基因上定义的基因表达相反,染色质可及性是在整个基因组中测量的,因此可以在不同的特征空间中表示。为了评估特征空间对数据集成的影响,将每个scATAC-seq数据集预处理为峰值、窗口和基因(即,基因活性)。在每个特征空间中,只考虑两个集成场景:具有三个平衡批次(每个数据集一个批次)的小型集成场景,以及来自三个大小非常不同的数据集的11个嵌套批次的大型集成场景。同时,为了限制特征空间,实验过程中仅使用数据集之间重叠的最可变的峰值、窗口或基因。
总之,大多数方法在scATAC-seq任务的批次校正方面表现不佳(图4)。事实上,许多方法使数据表示变得更糟,并且基因活性特别不适合代表scATAC-seq数据。与峰值或窗口上的相同数据相比,即使是基因活性空间中未集成的数据也缺乏细胞特性的生物学变异。这也反映在特征空间之间比较未集成的数据时生物变异保守性得分较低。尽管基因活性和scRNA-seq数据之间的特征有重叠,但在RNA数据上表现良好的方法中,只有 scANVI、scVI 和 scGen 在该特征空间上始终表现良好。事实上,基因活性空间上集成输出的平均生物变异保守性得分远低于峰值和窗口,尽管去除生物变异会导致更强的批次去除。
图4 小鼠大脑ATAC任务的基准测试结果
可扩展性和可用性
通过监控Snakemake 管道报告的CPU时间和峰值内存使用情况,发现 ComBat、BBKNN 和SAUCIE在运行时间方面表现最好,而scVI、scANVI和BBKNN的内存效率最高。由于作者在基准测试中加入了运行时间和内存限制,使用更多功能会导致更长的运行时间和更高的内存使用量。相比之下,数据缩放对CPU时间的影响很小,但是当缩放增加了峰值内存使用时,会降低数据稀疏性。
较差方法的可扩展性对scATAC-seq数据的集成具有重大影响,因为它通常具有很大的特征空间。总体而言,16种方法中只有7种可以在峰值和窗口的大型ATAC集成任务上运行(具有大于94,000个特征),这种较差的可扩展性直接阻碍了这种模式的集成方法的可用性。作者进一步对基于先前用于评估轨迹推断方法的标准方法可用性进行了评估,鉴于教程、功能文档和开源代码的可用性,大多数集成方法都易于使用。
3
总结与讨论
在本次研究中,作者在13个集成任务中,通过14个评估指标对具有4种预处理组合的16种集成方法进行基准测试,评估其集成精度。实验结果表明,集成方法的性能取决于RNA和模拟场景的集成任务的复杂性。作者对集成方法的排序是基于衡量集成成功的不同方面的指标,且遵循机器学习任务中稳健排序的最佳实践。
正如预期那样,集成方法中的批次效应去除和生物变异保守性之间存在一种平衡,正如BBKNN和Seurat v3倾向于消除批次差异,但scANVI和scGen优先考虑生物变异保守性。
缩放输入数据通常会使结果倾向于更好的批次去除,但这样会产生更差的生物变异保守性,而HVG 选择提高了整体性能。值得注意的是,只测量特定功能或途径(例如,细胞周期)的指标在完整基因组中表现更好。这表明,如果相关基因集包含在集成中,则在集成数据中可更好地捕获生物功能。
对于scATAC-seq任务,特征空间的选择在很大程度上决定了scATAC-seq数据上批次去除和生物变异保守性之间的权衡:峰和窗口特征空间保留了生物变异,而基因活性减少细胞之间以及批次之间的差异。一般来说,在RNA任务上表现良好的方法往往在scATAC-seq数据上表现不佳,因为这些方法通常侧重于生物保守性。在具有更多可调参数时,深度学习方法比其他基准方法更复杂,更有可能需要更大的输入数据和单独的超参数优化以获得最佳性能;然而,这也使它们能够灵活地适应复杂的批次效应。因此,作者建议根据三个标准选择集成方法:可用性、可扩展性和预期性能(图 5a)。考虑到可扩展性,人们希望快速测试集成如何影响数据集。对于较大的数据集可能需要方法能够很好地根据细胞或特征的数量进行扩展,而 GPU 基础设施的可用性可能会将方法选择导向深度学习方法。
集成方法的预期性能可以从本研究的整体结果以及需要集成的任务的细节中得出。如果已知细胞身份标签,则通过scANVI或scGen整合scRNA-seq批次是有效的。在没有标签的情况下,如果没有关于集成任务的进一步信息,作者建议使用性能最好的集成方法Scanorama和scVI,特别是对于足够大的数据集。对于具有明显生物信号的(较小)任务,Harmony可能是有用的。考虑到任务细节,剩余的考虑因素可分为五个标准:(1)预期批次效应的强度,(2)识别细微差别的细胞状态或恢复基因模块的需要,(3)批次和生物信号之间的混淆程度,(4)数据中存在连续的细胞轨迹和(5)数据中成分变化(图5a)。同时可以通过一系列集成任务对基准方法提出的挑战来定性地评估各种批次效应贡献者的强度(图5b)。
当前研究的局限性:研究中虽然对每个任务的批次效应和生物变异进行了考虑,但两者之间的区别并不简单。实验中的统计模型也可能适用于大型聚合数据集,但对于这些数据集,目前不存在足够强大的数据集成方法。
未来应用方向:该项基准研究有助于分析人员选择合适的集成方法,并指导开发人员构建更有效的方法,用户可以选择合适的预处理和集成方法进行探索性的集成数据分析。此外,这项工作可以成为方法开发人员的参考,他们可以基于所呈现的场景和指标来评估他们新开发的方法在图谱数据集成任务上的性能。
图5 选择集成方法的指南
参考资料
Luecken, M.D., Büttner, M., Chaichoompu, K. et al. Benchmarking atlas-level data integration in single-cell genomics. Nat Methods (2021). https://doi.org/10.1038/s41592-021-01336-8
数据
https://theislab.github.io/scib-reproducibility/
代码
https://github.com/theislab/scib-reproducibility/tree/main/website