单细胞多数据整合

2020-05-04 21:50:10 浏览数 (3)

单细胞转录组学已改变了我们认识细胞状态的能力,但对生物学的深入了解,整合多组学数据集以更好地理解细胞身份和功能。该文章开发了一个 一起“锚定”各种数据集的策略,使我们能够整合单细胞数据,不仅跨scRNA-seq技术,而且还包含其他技术。如,scRNA-seq数据锚scATAC-seq一起探索等。

有两个数据集,一个为reference ,一个为query,每个数据集均来自单独的单细胞实验。这两个数据集共享来自相似生物学状态的细胞,但查询数据集包含唯一的种群(黑色)。执行B中的canonical correlation分析,然后进行L2归一化,以将数据集投影到由跨数据集的共享相关性结构定义的子空间中。在共享空间中,跨reference和query单元识别MNN对。这些应该代表跨数据集(灰线)处于同样生物状态的细胞,并用作指导数据集集成的锚点。原则上,唯一种群中的细胞不应参与锚点,但实际上,也会到“不正确”锚点,频率较低(红线)。对于每个锚对,根据每个数据集邻域结构中锚的一致性分配一个分数。利用锚点及其分数来计算每个查询单元格的“correction”向量,并转换其表达方式,以便可以将其作为整合参考的一部分进行分析。

几种整合方式效果的比较。可以看到Seurat V3中整合较好的去除测序平台的偏差。

文献原文:https://sci-hub.tw/10.1016/j.cell.2019.05.031

0 人点赞