Scientific Reports | AutoImpute:基于自编码器的单细胞RNA测序数据的插补

2021-03-03 15:56:02 浏览数 (2)

今天给大家介绍印度德里Indraprastha信息技术学院的Debarka Sengupta教授等人发表在Scientific Reports上的一篇文章 “AutoImpute: Autoencoder based imputation of single-cell RNA-seq data” 。单细胞RNA测序 (scRNA-seq) 技术的出现,使我们能够以单细胞分辨率测量数千个基因的表达水平。然而,单个细胞中起始RNA的数量不足会导致显著的“dropout”事件 (被错误判断为零的表达值),在表达矩阵中引入大量的零计数。为了解决这一问题,本文提出了一种基于自编码器的稀疏基因表达矩阵的插补方法。AutoImpute,它学习输入的scRNA-seq数据的固有分布,并相应地插补缺失值,对生物沉默基因 (真实表达的零值) 进行最小的修改。在真实的scRNA-seq数据集上进行测试时,AutoImpute在基于下采样数据的表达恢复、细胞聚类精度、方差稳定和细胞类型可分离性方面表现出竞争性。

一、研究背景

单细胞RNA测序 (scRNA-seq) 可以测量单个细胞的基因表达。在过去的几年中,scRNA-seq通过促进表面相似细胞表型多样性的表征,彻底改变了基因组学领域。本文提出了AutoImpute,一种使用深度自编码器来插补稀疏基因表达矩阵的新方法。AutoImpute学习输入的scRNA-seq数据的固有分布,并相应地插补缺失值,且对生物沉默的基因表达值进行最小的修改。

在九个独立的数据集上,比较了AutoImpute与现有插补方法的性能。AutoImpute在下采样数据中恢复表达值、细胞聚类准确性、跨相同类型的细胞的方差稳定和细胞类型可分离性方面具有竞争力。此外,AutoImpute是唯一能够在所涉及的9个数据集中最大的PBMC (有68,000个细胞) 数据集执行插补,并不耗尽内存的。

二、模型与方法

AutoImpute基于深度自编码网络和稀疏基因表达矩阵 (图1)。它的目的是学习输入数据的固有分布,并估计缺失值与最小的影响生物低表达基因。AutoImpute将输入矩阵定义为:

其中∘是Hadamard,X是输入的原始矩阵,R是不存在 “dropout” 的矩阵,也是我们插补的最终目标矩阵。M是一个二元矩阵,当X中的元素为0时,M中对应位置的元素被设为0;除此之外,M中的元素都被设为1。为了获得线性逆问题的最优解,假设是一个低秩矩阵。据此,将模型转化为

其中

是在编码层使用的激活函数,D是自编码器的解码层,E是自编码器的编码层。AutoImpute使用深度自编码网络恢复上述公式并计算插补矩阵X̂。因为R的估计值,所以模型的loss被定义为

其中

是正则化系数,

表示损失只针对非零值进行计算,

为Euclidean损失函数。

图1. AutoImpute流程

三、实验结果

3.1 处理 “dropout” 和保留真正的零

本实验推测合理的插补方法应保留生物学上真实的零表达,只插补“dropouts”事件。由于缺乏起始RNA材料,scRNA-seq实验中“dropouts”率很高。但是没有一个方法可以确认这些“dropout”事件的准确位置。为此,本实验将来自成肌细胞系的同质批量测序细胞群中的零表达 (Trapnell数据) 当做真正的生物沉默 (真正的零表达)。然后采用不同的插补方法对与其对应的来自同一细胞系的单细胞表达数据进行插补。

首先对批量测序数据进行了预处理 (归一化与log变换),然后利用基因表达的中位数来构造一系列的“bins”。在批量测序数据中的零表达基因被认为是真实的零表达并被划分为一个单独的“bin”。其余表达基因根据表达值中位数进行分组。对于属于同一个“bin”的基因,插补的单细胞表达数据中的零的分数 (集合中的零数除以集合的总计数) 在图2中取自然对数来报告。

AutoImpute、scImpute和MAGIC成功地恢复了数据中的大部分真实零,并且不会将它们与“dropout”混淆。随着批量RNA测序数据中基因表达的丰富,用AutoImpute、scImpute和DrImpute的插补数据中的计数来填充未插补数据中的“dropout”,则显示零的分数下降;而MAGIC显示了接近于零的插补值的高分数。

图2. 处理“dropout”和保留“真正的零”

3.2 基因表达恢复

本实验通过随机遮盖基因表达来模拟“dropout”。针对7个基因表达数据集(Blakely, Jurkat-293T, Kolodziejczyk, Preimplantation, Quake, Usoskin and Zeisel),随机人工遮盖一定比例的非零表达值,并利用插补技术估计缺失位置的表达值。为此,每个数据集创建了5个不完整的数据矩阵,并遮盖了数据的不同部分 (10 - 50%)。

为了比较不同的插补方法,本实验使用相对应的恢复数据集和全表达式数据集之间的归一化均方误差 (NMSE)、均方根误差 (RMSE) 和平均绝对误差 (MAE) 作为评价指标。由于自动编码器中权值初始化的随机性,所有实验都运行了10次。从图3的结果可以看出:

1. AutoImpute的误差总体上优于其他插补方法,RMSE和MAE在大多数数据集中总是较小,而NMSE比除MAGIC外的所有方法都要小。

2. 随着表达式矩阵对各种插补方法的可观察性增加,理想情况下,任何插补方法都应该提高性能。对于所有指标NMSE、RMSE和MAE,这种趋势只在AutoImpute和scImpute中被观察到,而在MAGIC中并不总是如此。本文作者将其他指标放置在文章的补充材料中。

图3. scRNA-seq数据中恢复值和实际值之间的RMSE随遮盖率的增加的变化

3.3 提高聚类精度

本实验使用K-means来为插补后的数据进行聚类分析。采用调整Rand指数 (ARI) 来评价数据集的原始聚类标签与K-means的聚类标签之间的对应关系。结果表明,与最先进的插补方法相比,在实验的八个数据集中,AutoImpute在其中的五个给出了最佳ARI (如表1所示)。在其他数据集中,AutoImpute的结果比没有进行插补的数据结果要好。

表1. 不同的插补方法利用K-means聚类后结果的ARI

3.4 方差稳定

本实验检测了同一种细胞类型中细胞的基因表达变异。合理的插补应该减少基因表达的亚群内变异。随机从所有八个数据集选取一种子群类型,并为这些来自插补后的数据与未插补的数据的细胞中的单个基因计算变异系数 (CV)。

结果表明,AutoImpute在Jurkat、Preimplantation和PBMC 3个数据集中的亚群内基因表达的方差最稳定 (在两个数据集中对比MAGIC例外),在CV上也有一定的提高。图4以箱形图的形式总结了四个数据集中跨细胞亚型的基因变异系数的自然对数值。

图4. 对单个基因计算的变异系数对数的箱形图比较

3.5 改善细胞类型的可分离性

在单细胞表达数据中明显分离的细胞类型表明从这些数据中可以得出更有效的生物学结论。一个好的插补策略应该提高不同细胞型亚群的可分离性。为了评估这一点,本实验通过对其应用主成分分析 (PCA) 将基因表达降低到二维,并在二维空间进一步绘制细胞转录组,通过其标签为每个细胞着色。本实验观察轮廓指数值的平均值,这是一种无监督的度量指标,以检查每种方法如何从不同的亚种群中分组/分离细胞。图5显示了Jurkat和Zeisel数据集的结果。其他结果被作者放置在文章的补充材料中。

图5.(a) Jurkat-293T和(b) Zeisel数据集在插补前后的二维可视化和平均轮廓值

四、总结

由于神经网络的成功应用,本文提出了一个使用自动编码器的插补模型,AutoImpute。它学习了个体细胞中基因表达的固有分布和模式,通过将表达谱投射到高维潜在空间来重建表达矩阵。本文中展示的各种实验描述了AutoImpute相对于现有技术的竞争性能。基于一些评估指标,AutoImpute优于各种最先进的技术,也可以很好地扩展到拥有数千个转录组的庞大数据集。处理“dropout”实验,AutoImpute描述使用插补“dropout”来恢复真实零表达的直观趋势,这意味着该算法成功插补缺失值并最小程度干扰生物基因沉默 (真实表达的零)。


代码

https://github.com/divyanshu-talwar/AutoImpute

参考文献

Divyanshu, Talwar, Aanchal, et al. AutoImpute: Autoencoder based imputation of single-cell RNA-seq data.[J]. Scientific reports, 2018.


0 人点赞