今天给大家介绍纪念斯隆凯特琳癌症中心的斯隆凯特琳研究所的Dana Pe’er教授等人发表在Cell上的一篇文章 “Recovering Gene Interactions from Single-Cell Data Using Data Diffusion” 。单细胞RNA测序技术受到许多技术噪音的困扰,包括mRNA分子采样不足等,造成的噪声被称为“dropout”,其可能严重模糊重要的基因-基因关系。为了解决这个问题,本文开发了MAGIC (基于马尔可夫亲和力的细胞图插补法) ,这是一种通过数据扩散在相似的细胞之间共享信息以消除细胞计数矩阵的噪声并填补“dropout”的方法。本文在几个生物系统上验证MAGIC,发现它在恢复基因-基因关系和附加结构方面是有效的。
一、研究背景
单细胞RNA测序 (scRNA-seq) 正迅速成为生物医学研究中应用最广泛的技术之一。然而,单细胞基因组学中一个令人烦恼的问题是,观察到的表达计数只是捕获了每个细胞转录组的一个小随机样本 (通常为5%-15%) 。在基因低表达的情况下,这可能导致对表达基因检测的缺失,这种现象称为“dropout”(即将本应表达的基因表达计数错误地检测为0)。这影响了每个基因的表达信号,导致数据中基因-基因关系的丢失,导致除了最强相关关系之外的所有关系的缺失。为了克服这种稀疏性,大多数方法都是聚类细胞,将数千个细胞分解成少量的簇。或者使用其他方法聚集基因 (例如,主成分分析PCA),创造“元基因”。虽然这些方法在一定程度上解决了稀疏性问题,但它们失去了单细胞或单基因水平的分析。
为了解决这些问题,本文开发了MAGIC,一种在单细胞数据中恢复缺失基因表达的计算方法。MAGIC利用scRNA-seq中数千个细胞的大样本,通过数据扩散的方式在相似的细胞之间共享信息。MAGIC插补每个细胞中可能的基因表达,揭示了潜在的生物结构。MAGIC使用的信号处理原理类似于那些用来恢复模糊和颗粒状图像的原理。在几个生物系统上验证MAGIC,发现它在恢复基因-基因关系和附加结构方面是有效的。
二、模型与方法
由图1可见 (i) MAGIC输入的数据为一个细胞-基因矩阵;(ii) 利用输入计算一个细胞距离矩阵;(iii) 利用高斯核将距离矩阵转换为亲和矩阵。图1中显示了核函数的图形描述;(iv) 将亲和力矩阵归一化,得到马尔可夫矩阵。马尔科夫矩阵显示为一个单点向其他点的跃迁概率;(v) 为了进行扩散,将马尔科夫矩阵取幂到选定的t次幂;(vi) 将取幂的马尔科夫矩阵与原始数据矩阵相乘,得到去噪和输入的数据矩阵。
图1. MAGIC的插补流程
三、实验结果
3.1 MAGIC增强了骨髓结构
本实验首先在使用MARS-seq2收集的小鼠骨髓数据集上评估了MAGIC。数据矩阵是稀疏的,细胞在其各自的细胞类型中缺失许多典型基因 (图2A)。在转录水平,用于识别免疫亚群的典型表面标记是低表达的。例如,在C14、C15等单核细胞簇中,只有1.6%的细胞表达CD14,5.8%的细胞表达CD11b,只有10%的树突状细胞 (簇C11) 表达CD32。使用MAGIC后 (npca = 100, ka = 4, t = 7) ,94%的单核细胞表达CD14, 98%表达CD11b,,97%的树突状细胞显著表达CD32。
当使用双轴图查看数据时,数据的稀疏性更明显 (图2B, t = 0)。在任何给定的细胞中同时观察两个基因是很少见的,这模糊了基因之间的关系。MAGIC恢复了缺失的值和相互关系,重建了通常在流式细胞中看到的双轴图。图2B显示了在原始数据中无法检测到的造血过程中建立的关系。通过将簇的标记叠加到双轴图上,可以看到细胞是按簇来分组的,并且随着细胞的成熟和分化,簇间的基因-基因关系逐渐改变。同时可以观察到扩散过程的影响:随着t (矩阵的幂次数) 的增长,一个清晰而良好的结构出现。图2C展示了基因-基因的三维关系。对于原始数据中可见的小结构,在使用MAGIC之后,可以观察到一个持续发展轨迹。
为了进一步验证上述结果,本实验利用MARS-seq2提供的索引排序,进行基于荧光激活细胞排序 (FACS) 的CD34和FCGR3基因的测量。虽然原始数据中蛋白质与原始mRNA的相关性较差,但经过MAGIC处理后,这两种的相关性显著增加:FCGR3从0.55增加到0.88,CD34从0.39增加到0.73 (图2D)。
图2. MAGIC应用于小鼠骨髓祖细胞数据
3.2 MAGIC保留并增强了神经元数据中的簇结构
本实验在两个数据集中对MAGIC进行了评估,这些数据集测量了已知具有高度功能特异性的神经元细胞。最终分化的神经细胞具有分离良好的簇状结构。
本实验分析了用Drop-Seq收集的小鼠视网膜数据集。随后,将细胞 (使用原始数据) 使用“Phenograph”聚集在一起 (k = 30)。为了验证MAGIC可以恢复集群结构,实验运行MAGIC (npca = 100,ka = 10,t = 6), 然后使用MAGIC插补后的数据重新聚类并计算使用MAGIC之前的结果与使用MAGIC之后的结果的兰德指数 (衡量集群相似性的指标,缩写为ARI),得到兰德指数为0.93。
MAGIC改善了聚类结果,突出了每个聚类内部的异质性和基因-基因关系。实验进一步绘制了使用MAGIC前后的各种基因-基因关系,并根据细胞簇给细胞染色,发现基因-基因关系在不同的簇中表现不同 (图3A) 。例如,在不同的细胞群中,双极锥体标记物SCGN和GRM6之间的关系不同。在簇5-7中,SCGN和GRM6均高表达,呈正相关关系 (图3Ai)。簇14-17中的SCGN高表达,GRM6低表达,集群内呈负相关。这些趋势和区别在使用MAGIC之前是无法察觉的,并且会被简单的平均策略所忽略。
接下来,本实验在Zeisel等人使用mart-seq2收集的深度排序的小鼠皮层数据集上评估MAGIC保持集群结构的能力。MAGIC保留了簇团的离散性,没有在它们之间引入额外的中间状态;在使用MAGIC之前和之后,扩散部分保持不变 (图3B)。该数据集的相对深度采样使系统评估成为可能,从原始数据中删除一些计数,并比较MAGIC前后的聚类。实验去掉了高达90%的数据,并比较了聚类结果。虽然在缺失数据上的聚类质量在下降 (在“dropout”率达到80%时,兰德指数下降到0.6),但MAGIC之后的聚类在所有级别的缺失数据中保持了一致的优势 (兰德指数0.89-0.94) (图3C)。
图3. MAGIC维持聚类结构
3.3 评估MAGIC的准确率以及鲁棒性
为了说明MAGIC纠正噪声的能力,本实验生成了一个合成测试用例,创建两个细胞簇,然后随机选择细胞-基因矩阵条目的一部分,并在簇之间切换它们的值 (比率在10%和30%)。使用MAGIC (ka = 10, t = 4, npca = 10) 来校正这个高频噪声。图3D显示,虽然这种人工噪声导致将细胞放置在错误的集群中,但MAGIC能够纠正这个错误,10%的噪声可以恢复98%,30%的噪声可以恢复81%。
四、总结
本文提出了一种基于数据扩散原理的scRNA-seq数据插补方法——MAGIC。并且在来自不同生物系统和测量技术的四个不同的scRNA-seq数据集上对该方法进行了评估。实验结果证明MAGIC在数据中恢复了精确的表型结构,包括分离良好的集群 (图3)、分叉的发育轨迹 (图2) 等。此外,MAGIC还细化了集群结构、轨迹和基因-基因关系,并使无数后续分析技术成为可能。除上述描述的实验外,此文还设计了许多其他有借鉴意义的验证实验,感兴趣的读者可以下载原文来进行阅读。
代码
https://github.com/KrishnaswamyLab/magic
参考文献
David V D , Roshan S , Juozas N , et al. Recovering Gene Interactions from Single-Cell Data Using Data Diffusion[J]. Social Science Electronic Publishing, 2018:S0092867418307244-.