编译 | 周珍冉 审稿 | 王玉杰
今天给大家介绍来自美国维克森林医学院的Qianqian Song, Jing Su 和 Wei Zhang发表在nature communication上的文章“scGCN is a graph convolutional networks algorithm for knowledge transfer in single cell omics”。作者提出的单细胞图卷积网络模型(single-cell Graph Convolutional Network,scGCN)可以实现跨越不同数据集的知识转移(knowledge transfer)。通过在30个单细胞组学数据集上进行基准测试实验,结果表明scGCN在利用来自不同组织、平台和物种以及分子层的细胞方面展现了优于其他方法的准确性。
1
简介
单细胞组学技术允许在单细胞分辨率下分析多个分子层,并在不同条件下分析多个样本的细胞,在生物医学研究中是一个热门话题。其中最前沿的研究是单细胞RNA测序技术(scRNA-seq),它能够在不同条件下测量来自多个生物样本的数千个单细胞的转录组。
随着单细胞组学技术的快速发展,单细胞组学数据越来越多,因此迫切需要使用可靠和可重复的方法来利用现有和新生成数据,以已经具有明确标签的单细胞数据作为参考,将标签转移到新生成的数据集来分配单元级注释。但是,现有数据和新生成的数据往往来自于不同组织和物种,在不同的实验条件下,由不同的平台生成,有着不同的组学类型。因此一个可靠准确的知识转移方法需要解决以下挑战:
- 单细胞数据独特的技术问题,如dropouts和dispersion。
- 由于操作人员、实验方案和技术变化而产生的批次效应(batch effect)。
- 与不同组织、物种和分子层相关的内在生物学差异,如RNA-seq和ATAC-seq。
当前解决这些跨不同数据集转移标签挑战的方法有Seurat v3、Condos、scmap和CHETAH。尽管它们在不同环境下都很有意义,但能力和性能有限,部分原因在于它们只能从单个细胞提取共享信息,而忽略了细胞之间的高阶关系。而图卷积网络(Graph Convolutional Networks,GCN)能够捕获这种拓扑细胞关系。最近,GCN及其相关方法已成功应用于单细胞和疾病领域,这证明了包括GCN在内的通过学习细胞的高阶表示和拓扑关系的方法能够提升模型性能。
因此,作者提出了基于图的模型——scGCN,它能够可靠并可重复地进行跨研究的单细胞数据集集成和转移标签,将在以前研究中从特征良好的数据集学习到的知识转移到目前的研究中。作者使用了来自不同组织、物种、测序平台和分子层(如RNA-seq和ATAC-seq)的单细胞组学数据集,实验证明scGCN的准确性和可重复性优于其他方法。并且作者提供了scGCN的软件,软件兼容了各种单细胞数据集,可以准确地进行细胞类型的识别。
2
scGCN概览
从现有单细胞数据集学习到的知识通常称为细胞标签,包含细胞类型、发育状态、激活状态、细胞功能和信号传导模式等。scGCN以表征良好的单细胞数据作参考,通过半监督学习在查询数据集中推测这种细胞级知识,即标签转移。
具体操作见图1:
首先,scGCN使用了将不同数据集投射到相关低维空间的典型相关向量的相互最近邻,学习数据集间和数据集内细胞映射的稀疏图和混合图,从而识别和传播参考数据和查询数据之间的共享信息。
接着,在构建的图的基础上,使用半监督GCN将参考数据集和新数据集的细胞投影到相同的潜在空间,使具有相同标签的细胞出现在相同的种群中。
通过上述步骤,查询数据中的细胞标签可以从参考数据中预测和学习。
图1. scGCN将标签从参考数据转移到查询数据的原理图概述
3
实验结果
◆数据集内标签转移的性能
作者将scGCN与其他方法(Seurat v3、Conos、scmap和CHTAH)进行基准测试来评估scGCN的性能。对于定量基准,作者使用了10个有不同细胞数量、组织、物种和测序技术的scRNA-seq数据集来代表细胞标签转移的不同场景和挑战。对于每个数据集,作者随机选取了50%的细胞作为参考数据,剩余50%作为查询数据。将查询数据中正确预测的细胞占所有细胞的比例定义为准确度得分(Acc),使用Acc作为评估每种方法性能的指标。实验结果如图2,scGCN全面优于其他方法,取得了最高的准确率(mean Acc=91%)。
图2. 数据集内标签转移的性能
◆跨平台数据集标签转移的性能
由于新兴的单细胞数据集是由不同实验平台生成的,所以作者测试了scGCN在不同平台的数据集之间转移标签的准确度。作者使用了12对参考-查询数据集,每一对都使用了不同的scRNA-seq技术进行分析。结果显示,scGCN的准确度得分(mean Acc=87%)始终高于Seurat v3 (mean Acc = 82.2%)和Conos (mean Acc = 82.3%),明显优于scmap (mean Acc = 66%) 和CHTAH (mean Acc =58%)。
图3. 基于12个跨平台数据集的scGCN算法的性能
◆跨物种数据集标签转移的性能
接下来,作者将方法用于测试4对参考-查询数据集,每对数据集由小鼠细胞和人体组织细胞组成。作者首先应用五种方法对四对数据集中的查询数据进行标签识别。然后,比较了使用不同方法聚合的参考-查询数据的细胞的可视化(如图4a),结果显示只有在使用scGCN生成的汇总数据中,UMAP对四种情况的预测都能清楚地识别出细胞亚群(图4b)。
图4. 基于四种跨物种数据集的scGCN方法的性能
◆跨组学类型数据集标签转移的性能
最后,作者在不同组学类型的数据集上对scGCN、Seurat v3和Conos算法进行了测试,使用四个开放的可访问配对数据集,以scRNA-seq数据作为参考数据,scATAC-seq数据作为查询数据。使用两个评价指标——批次混合熵(batch mixing entropy)和轮廓系数(silhouette coefficient)。批次混合熵值越高,不同批次的细胞混合越好,而scRNA-seq和scATAC-seq数据被视为两个批次。轮廓系数越大,细胞类型间的差异越大,细胞类型间的方差越小。实验结果表明,scGCN拥有最高的混合熵值(图5a)和轮廓系数(图5b)。
图5. 使用四对交叉组学数据集的scGCN方法的性能
4
结论
从技术角度来看,scGCN的优势在于:
- scGCN同时使用特征、图形结构和参考标签来解决数据集之间的批次效应、协议差异和其他内在差异。
- scGCN以半监督学习的方法进行标签转移,比其他无监督学习的方法更有前景。
- 第三,在每个层中,SCGCN非线性地传播来自混合图中的相邻细胞的特征信息,学习拓扑细胞关系并通过考虑细胞之间的高阶关系来提高转移标签的性能。
尽管scGCN算法性能全面优于四种常用算法(Seurat v3、Conos、scmap和CHTAH),它依旧可以从几个方面进行改善:
- scGCN有一些AI模型的局限性,包括AI模型的黑盒子性质。 这些问题可以通过下游分析来解决。
- scGCN作为一种图模型,可以通过改进图形构造来提升模型性能。
参考资料
Song, Q., Su, J. & Zhang, W. scGCN is a graph convolutional networks algorithm for knowledge transfer in single cell omics. Nat Commun 12, 3826 (2021). https://doi.org/10.1038/s41467-021-24172-y
论文链接:
https://www.nature.com/articles/s41467-021-24172-y
代码链接:
https://github.com/QSong-github/scGCN