作者 | 戴迟迟 编辑 | 李仲深
今天给大家介绍华中师范大学的张晓飞教授等人发表在Bioinformatics上的一篇文章“scTSSR: gene expression recovery for single-cell RNA sequencing using two-side sparse self-representation”。单细胞RNA测序 (scRNA-seq) 方法可以在单细胞层面揭示基因表达模式。由于技术缺陷,在scRNA-seq中的“dropout”事件会给基因表达矩阵增加噪声,阻碍下游分析。因此,在进行下游分析之前,恢复真实基因表达水平是很重要的。本文开发了一种称为scTSSR (scRNA-seq two-side sparse self-representation) 的插补方法来恢复scRNA-seq的基因表达。与大多数现有方法不同的是,scTSSR使用双向稀疏自表示模型并且同时利用来自相似基因和相似细胞的信息。本文还进一步利用实验证明scTSSR可以有效地捕获在单分子RNA荧光原位杂交 (smRNA FISH) 中观察到的基因的Gini系数和基因-基因的相关性。下游分析实验表明,scTSSR在恢复真实基因表达水平方面优于现有的方法。
一、研究背景
scRNA-seq技术的发展提供了在单细胞水平上对基因表达的测量,这为研究细胞异质性铺平了道路。然而,“dropout”事件,即在细胞中表达的基因未被检测到表达被错误地记为0,经常在scRNA-seq实验中发生。由此产生的基因-细胞表达矩阵中会包含许多由此事件引起的假零值,这些假零值会破坏生物信号,阻碍下游分析。因此,在执行下游分析之前,对scRNA-seq数据中的表达值进行优化是很有必要的。
在本研究中,提出一种新的插补方法scTSSR,使用双向稀疏自表示模型恢复scRNA-seq中的基因表达。scTSSR同时学习两个非负稀疏自表示矩阵来获取基因-基因和细胞-细胞的相似性。表达矩阵中缺失的值由相似基因和相似细胞的双线性组合推算(图1C)。本文还将scTSSR与贝叶斯层次模型耦合,最终的插补值是利用scTSSR赋值与原始读取计数的加权平均得到的。为了评估该方法的性能,本实验首先通过将插补后的数据和从单分子RNA荧光原位杂交 (smRNA FISH) 得到的数据比较,然后评估其准确性。在恢复基因Gini系数和保持基因-基因相关性方面,scTSSR方法优于其他比较方法。接下来,进行了下采样实验,发现scTSSR在恢复真实表达水平方面具有竞争力。scTSSR在差异表达分析、细胞聚类和细胞轨迹推断方面的可比性能也得到了证明。这些结果表明,scTSSR是一个提高生物发现的scRNA-seq数据分析的强有力的工具。
二、模型与方法
scTSSR同时考虑基因间的相似性信息和细胞间的相似性信息来弥补缺失值。最终的插补值可以预测为:
其中,
表示插补后的值,
表示原始矩阵中第i行第j列的表达值。
以及
是对自表示系数的估计,分别代表捕获的基因i,k之间的相似度以及细胞h,j之间的相似度 (见图1)。文中采用惩罚最小平方法对两个参数进行估计。
图1 计算插补值的不同策略
三、实验结果
3.1 通过与smRNA FISH数据的比较来评估插补的准确性
smRNA FISH是一种与scRNA-seq互补的单细胞转录组分析方法。与scRNA-seq相比,smRNA FISH具有准确测定基因表达水平的优势。因此,smRNA FISH可以作为评价插补后的scRNA-seq数据的参考。本文使用一个经过预处理的Drop-seq数据包含12241个基因和8498个细胞,以及相应的smRNA FISH数据包含88040个细胞和26个基因。smRNA FISH和Drop-seq数据集共有的基因有15个。由于smRNA FISH和Drop-seq数据集中包含的细胞是不同的,本文只能将插补的scRNA-seq数据的分布与smRNA FISH数据的分布进行比较。本文关注两个主要指标:第一个是Gini系数,一种衡量基因表达变异性的指标,它对识别罕见细胞类型和偶尔表达的基因非常有用;二是基因-基因的相关性,这对基因网络的重建非常重要。
图2 从插补数据计算的Gini系数与从smRNA FISH数据计算的Gini系数的比较
图2显示ALRA的性能最好,而scTSSR比其他9种插补方法的性能更好。本文还利用皮尔逊相关系数 (PCC) 计算基因-基因的相关矩阵。scTSSR的PCC最高,优于其他的插补方法。这些结果表明,scTSSR可以准确地恢复smRNA FISH的真实分布,但在Drop-seq中被抑制。
3.2 通过下采样实验评估插补的准确性
进行了两个下采样实验。第一个是使用不同的方法(例如细胞聚类和t-SNE可视化)评估性能。第二个是在不同的下采样率下对性能进行评估。
在第一个下采样实验中,给定一个数据集,本文首先选择高表达的细胞和基因子集来生成一个参考数据集,然后使用下采样从参考数据集生成一个向下采样的原始数据集。通过在每个原始数据集上运行12种插补方法,并通过使用不同的指标比较插补数据和参考数据来评估性能。图3A显示scTSSR在Baron数据集和LaManno数据集上获得了最高的基因相关性,并且在四个数据集上都取得了最好的细胞相关性。通过Jaccard指数和t-SNE可视化来评估聚类精度,scTSSR在所有数据集中取得了较高的Jaccard指数 (图3B)。
第二个下采样实验采用的下采样方法包括两个步骤。首先,生成初始的下采样数据,这些数据对应不同的下采样率。其次,根据逻辑模型计算出的数据“dropout”概率,将初始生成数据的每一个下采样条目设为零。下采样率分别被设为0.5,0.6,0.7,0.8,0.9以及 0.95。通过计算原始数据与插补数据间的PCC,scTSSR在所有下降采样率的三个数据集上都优于其他的插补方法 (图3C)。
图3 下采样实验对插补方法的评价
3.3 通过差异表达分析评估插补的准确性
本文对原始数据和插补数据进行了差异表达分析,以说明插补方法的性能。由于缺乏标准,所以将批量RNA测序的结果作为准则来进行对比。本实验只考虑数据集中前2000个高可变的基因,将批量RNA测序的结果与插补之后得出的结果作对比。图4A 绘制了所有插补方法的ROC曲线以及曲线的面积AUC,可以看出scTSSR优于其他所有方法。另外,以来自批量RNA测序数据的通过调整后的P值排列的前400个基因为准则,计算了从批量RNA测序数据计算出的调整P值与从插补数据计算出的P值之间的PCC (图4B),scTSSR的表现优于其他方法。结果表明,scTSSR鉴定的差异表达基因与批量RNA测序数据一致。
图4 通过差异表达分析评价插补方法
3.4 通过细胞聚类评估插补的准确性
本实验提取了四个数据集:Pollen、IPSC、Guo、PBMC中的每一个的前2000个高可变基因,利用SC3进行细胞聚类分析。在图5中绘制了来自四个数据集的聚类结果的调整Rand指数 (ARI),值得一提的是,考虑到一些插补方法可能依赖于随机种子,本文将每种插补方法在iPSC数据集上运行10次,并计算了ARI的标准误差。scTSSR拥有鲁棒的性能,总是排在前两名。总的来说,scTSSR可以通过对缺失数据的插补来提高细胞聚类性能。
图5 四个数据集上不同插补方法聚类结果的ARI分数
3.5 通过细胞轨迹推断评估插补的准确性
细胞轨迹的重建对于确定动态过程的模式是很重要的。本文比较了对“dropout”事件进行插补和不插补的伪时间推理,以评价不同插补方法的效果。以伪时间排序分数(POS) 和Kendall’s rank相关分数作为度量真时间标签与伪时间排序一致性的指标。本文使用TSCAN和Monocle2来推断伪时间。由图6中可以看出,scTSSR的POS 和Kendall’s rank相关分数得到所有方法中前两名。由于scTSSR不要求数据矩阵是低秩的,所以它在细胞聚类和轨迹推断方面都有很好的表现。
图6 使用Monocle2从原始数据和插补数据重建的谱系的可视化
四、总结
本文开发了一种新的方法来插补scRNA-seq数据中的“dropout”事件。在不同的真实scRNA-seq数据集上,针对不同的评价指标,进行了5个实验来评估所提方法的性能。结果表明,与11种插补方法比较,scTSSR在基因Gini系数和基因间相关性的恢复、真实表达水平的恢复、差异表达分析、细胞聚类和伪时间轨迹分析等方面均优于其他的插补方法。
代码
https://github.com/Zhangxf-ccnu/scTSSR
参考文献
Jin K ,Ou-Yang L , Zhao X M , et al. scTSSR: gene expression recovery for single-cellRNA sequencing using two-side sparse self-representation[J]. Bioinformatics,2020, 36(10).
https://academic.oup.com/bioinformatics/article-abstract/36/10/3131/5740568?redirectedFrom=fulltext