今天给大家介绍由新南威尔士州悉尼大学数学与统计学院Yingxin Lin等人在《bioRxiv预印本》上发表了一篇名为“scJoint: transfer learning for data integration of single-cell RNA-seq and ATAC-seq”的文章。文中提出了一种整合scRNA-seq和scATAC-seq数据的异构集合的转移学习方法(scJoint)。scJoint使用一个神经网络来同时训练标记和未标记的数据,并将两种模式的细胞嵌入一个共同的低维空间,从而在一个整合的框架中实现标记转移和联合可视化。
1
背景
单细胞技术的进步使得对细胞异质性、发育动力学和跨不同生物系统的细胞通讯的全面研究以前所未有的分辨率成为可能。转录组学有多种分析方法,单细胞RNA-seq(scRNA-seq)就是一个例子。此外,已经开发了许多技术用于单个细胞中的其他分子测量,以建立细胞功能的更全面视图,包括染色质可及性、蛋白质丰度和甲基化。
特别是,单细胞ATAC-seq(scATAC-seq)是一种表观基因组分析技术,用于测量染色质可及性,以发现细胞类型特异性调控机制。scATAC-seq提供了一个与scRNA-seq互补的信息层,它们共同提供了单个细胞及其身份的更全面的分子图谱。然而,已经注意到scATAC-seq数据的极端稀疏性通常限制了其在细胞类型识别中的能力。相反,大量注释良好的scRNA-seq数据集被整理成细胞图谱,促使我们将细胞类型信息从scRNA-seq转移到scATAC-seq,以便在综合分析框架中更好地分类细胞类型。
对于转录组数据和scATAC-seq数据,有许多方法可以对单个组学数据进行去噪、批量校正和整合。然而,这些方法在多组学数据整合中的直接应用在计算上是有挑战性的,而且往往是次优的,因为不同的模式有很大不同的维度和稀疏性水平。在这里,作者提出了一种端到端的转移学习方法scJoint,它使用神经网络方法有效地整合了scRNA-seq和scATAC-seq数据。众所周知,除了具有很高的预测能力外,神经网络的隐藏单元还能够从底层数据分布中学习隐式表示。因此,通过利用来自带注释的scRNA-seq数据集的信息,使用相同的编码器来同时训练两种模式,以便反映注释的隐式特征可以被嵌入空间中的隐藏层学习,以及来自ATAC域的未标记数据可以对齐到相同嵌入空间中的相似点。与需要初步降维步骤的方法不同,scJoint包含了一个新的损失函数,它将降维作为迁移学习中特征工程过程的一部分显式地结合起来,允许在整个训练过程中更新低维特征,并且不需要选择高度可变的基因。这种整合框架使scJoint能够将细胞类型标签从scRNA序列转移到scATAC序列数据,并为两种模式构建联合嵌入。通过应用scJoint整合两个小鼠细胞图谱(scRNA-seq和scATAC-seq)和一个具有配对蛋白质测量的多模式数据,作者证明了scJoint比现有方法获得了更高的标记转移精度和整合质量。
2
模型
scJoint的核心是一种半监督的方法来联合训练标记数据(scRNA-seq)和未标记数据(scATAC-seq),在此解决了通过常见的较低维度空间对齐这两种不同数据模式的主要挑战。scJoint由三个主要步骤组成(图1a)。第一步通过一种新的基于神经网络的降维(NNDR)损失和余弦相似性损失,在公共嵌入空间中进行联合降维和模态对齐。NNDR损失提取与PCA相似的静脉中具有最大可变性的正交特征,而余弦相似性损失鼓励神经网络找到嵌入空间中的投影,以便两种模式的大多数部分可以对齐。scRNA-seq的嵌入进一步由细胞类型分类丢失来指导,形成半监督部分。第二步,将scATAC-seq数据中的每个单元作为一个查询,通过测量它们在公共嵌入空间中的距离来识别scRNA-seq单元中的k近邻,并通过多数投票将单元类型标签从scRNA-seq转移到scATAC-seq。在第3步中,我们进一步改善了两种模式之间的混合,利用转移标签的度量学习损失。使用标准工具(包括tSNE和UMAP)从最终嵌入层获得数据集的联合可视化。scJoint需要简单的数据预处理,经过适当的过滤后,输入维数等于给定数据集中的基因数。scATAC-seq数据中的染色质可及性首先被转换为基因活性分数,允许使用一个单独的编码器,对RNA和ATAC进行权重共享。
图1:(a)scJoint概述。scJoint的输入包含一个(或多个)基因活性得分矩阵(根据scATAC-seq的可及性峰值矩阵计算得出)和一个(或多个)基因表达矩阵,其中包括来自scRNA-seq实验的细胞类型标记。该方法主要包括三个步骤:(1)联合NNDR和半监督转移学习;(2)在联合嵌入空间中,由k最近邻进行的细胞类型标签转移;(3)联合训练并转移标签。(b)本研究中使用的三个数据收集:(1)小鼠细胞图谱;(2)来自PBMC的多模式数据;(3)来自由SNARE-seq生成的成年小鼠大脑皮层数据的配对数据。
3
结果
scJoint在大型atlas数据上显示准确而强大的性能
作者演示了scJoint在复杂场景中的性能,在该场景中,图集数据中细胞类型和组织的异质性给数据集成带来了重大挑战。作者应用scJoint整合了两个小鼠细胞地图集:用于scRNA-seq数据的Tabula Muris图谱和用于scATAC-seq数据的图谱,分别包含73种细胞类型(来自20个器官的96404个细胞)和29种细胞类型(来自13个组织的81173个细胞)(后者包括注释为“未知”的组),其中19种细胞类型是常见的。作者的初步评估集中在atlas数据的子集上,该数据仅包含19种重叠细胞类型中的101692个细胞。在这里,作者将细胞类型标记从scRNA-seq转移到scATAC-seq,并将结果与原始标记进行比较,以确保准确性;这些原始标记也用于评估细胞可视化的质量。对t-SNE图的结果表明,scJoint有效地混合了三种协议(FACS、droplet、ATAC),同时根据先前定义的细胞类型提供了比其他方法更好的细胞分组(图2a)。这一观察结果得到了定量评估指标的证实,scJoint显示出明显高于所有其他方法的细胞类型轮廓系数以及与Seurat和Liger相似的模态轮廓系数。总的来说,scJoint的轮廓系数的F1中位数最高,在消除模式中的技术变化和保持细胞类型信号之间实现了更好的权衡(图2b)。就标签转移准确性而言,scJoint将84%的细胞分配到正确的类型,比Seurat和Conos高14%和13%(图2d)。
图2:小鼠细胞图谱子集数据分析,包含来自RNA和ATAC的19种重叠细胞类型。
使用高度异构的Atlas数据进行标签转移可改善scATAC-seq中的细胞类型注释
接下来,作者将执行更具挑战性的任务,整合完整的atlas数据。由于scRNA-seq atlas数据比scATAC-seq atlas数据包含更多的细胞类型,因此作者使用这个应用程序来说明转移的标签如何细化并为ATAC细胞提供新的注释。为了与原始标签进行比较,使用scATAC-seq峰矩阵的术语频率-反文档频率(TF-IDF)变换的奇异值分解,构建tSNE可视化图(图3a)。作者观察到scJoint标记细胞在这个ATAC可视化空间中以比其他方法更一致的方式紧密结合在一起。从质量上来说,scJoint更高的整体准确率(77%,而Seurat为60%,Conos为55%)。
进一步检查转移的标记,作者发现scJoint标记一组细胞(最初标记为“未知”或“内皮细胞”)为“基质细胞”(4352细胞)和“成纤维细胞”(1602细胞),这两种细胞类型在原始的ATAC标记中不存在。这些细胞显示Col1a1、Col1a2、Dcn和Ccdc80的高基因活性分数,所有这些标记物在基质细胞和成纤维细胞中具有高表达水平,但在来自scRNA-seq数据的内皮细胞中具有低表达水平(图3b)。因此,新的注释更符合标记表达水平。
更有趣的是,作者注意到scJoint注释的文献中标记为“未知”的5931个单元,其概率得分大于0.80。这些细胞在scJoint嵌入空间的tSNE可视化图中清楚地分为几组(图3c),主要组是内皮细胞,基质细胞,神经元和B细胞。使用从scRNA-seq数据中鉴定出的细胞类型标记,这些ATAC细胞的汇总基因活性得分显示出清晰的差异表达模式(图3d)。
图3:小鼠细胞图谱完整数据分析
scJoint在配对测量scRNA-seq和scATAC-seq时显示出通用的性能
虽然scJoint是为集成未配对数据而设计的,但它仍然直接适用于配对数据。这样的应用程序还使作者能够将其性能与包含配对信息的方法进行比较,并使用配对信息验证标签传输结果。作者考虑了由SNARE-seq生成的成年小鼠大脑皮层数据的整合,该技术可以分析同一细胞中的基因表达和染色质可及性。除了Seurat和Liger之外,作者还将scJoint与另外两种专门为配对数据设计的方法scAI和MOFA 进行了比较。在作者的评估中,所有的非配对(scJoint,Seurat,Liger)都将SNARE-seq的RNA和ATAC部分作为两个独立的数据集,而配对方法考虑了配对信息。作者发现scJoint能够根据细胞亚型提供清晰的细胞分组(图5a),并且与成对方法相比获得可比或更好的细胞类型轮廓系数(图5b)。这表明scJoint的通用性足以应用于配对数据,而配对数据正变得越来越流行。
图5:SNARE-seq成对基因表达和染色质可及性数据分析。
4
总结
总之,scJoint作为一种通用的迁移学习方法,用于单细胞多组学数据的综合分析。scJoint被证明能有效地整合来自非配对或配对分析的多种测量类型,在标签转移准确性方面优于其他方法,并提供联合可视化,消除技术差异,同时保留有意义的生物信号。scJoint能够通过捕捉不同数据模式所特有的细胞特征的各个方面来整合多组学数据,这将有助于更全面地了解细胞功能和细胞通讯。
代码
https://github.com/SydneyBioX/scJoint.
参考资料
scJoint: transfer learning for data integration of single-cell RNA-seq and ATAC-seq. Yingxin Lin, Tung-Yu Wu, Sheng Wan, Jean Y.H. Yang, Y. X. Rachel Wang, Wing H. Wong. bioRxiv, 2020.12.31.424916;
doi: https://doi.org/10.1101/2020.12.31.424916