单细胞转录组实战06: pySCENIC转录因子分析(原理)

2023-02-19 09:14:18 浏览数 (2)

生信交流与合作请关注公众号@生信探索生信交流与合作请关注公众号@生信探索

背景

转录因子(transcriptionfactor, TF)是直接作用于转录组上,调控DNA转录的蛋白质。它通过与DNA特定区域结合(TFBS/motif),促进(activator)或阻止(repressor)DNA的转录过程,了解转录因子对于解析细胞的功能及生命活动有重要作用

分析流程

对亚群细分类分析,也可以对不同的实验组分析

Step 1 构建共表达网络

输入的数据是标准化的count矩阵(行是基因和列是细胞),从中找出TFs调节的基因构建共表达网络。因此需要先验知识TFs及其靶基因集合(可以从数据库下载)。

这个共表达网络只是基于TF和gene表达量相关性推测的,TF和gene之间是否现实存在调控关系还需要进一步确证。确证的方法主要从TF功能结构入手,从图1我们可以看出,TF是通过直接与DNA结合而发挥作用的,因此我们可以通过反向查看gene上是否存在TF结合的motif序列来验证TF与gene的靶向关系。

Step 2 motif富集分析

进行TF-motif富集分析,识别直接靶标。仅保留具有正确的上游调节子且显著富集的motif modules,并对它们进行过滤以除去缺乏motif支持的间接靶标。这些处理后的每个TF及其潜在的直接targets genes被称作一个regulon。

具体过滤过程,首先基于gene-motif数据库,每个motif对模块中所有基因进行累积,模块中的基因排名越靠前,累积曲线越高,曲线下面积 (AUC) 越大,表明motif在该模块中的富集程度越高,然后对每个模块选取显著富集的motif,并预测其靶基因,最终综合TF-genes模块和靶基因预测结果,构成一个包含了TF和靶基因的基因调控网络模块 (regulons)。

Regulon调控子:受同一个TF调控的一群基因的集合,即one Regulon = one TF target genes

Step 3 AUCell对每个细胞的每个regulon活性进行打分

对于一个regulon来说,比较细胞间的AUCell得分可以鉴定出哪种细胞有显著更高的subnetwork活性。

原理:AUCell基于基因集(Regulons中所有基因)打分,所得到的分数即为AUC(Area Under Curve)表示Regulons在细胞中的“活性”。

打分过程是针对每个细胞,将细胞中所有基因按照表达量从高到低进行排序,根据Regulons中的基因在序列中的位置,计算累计曲线面积 (AUC)。

Step 4 AUCell分数二值化

由于不同regulons包含的基因不同,它们之间的AUC值不具有可比较性,因此基于AUC值在所有细胞中的双峰分布特征,增加了Rgulons“on/off”的概念,认为双峰之间的低谷为判断Regulons活性开放的阈值,如果AUC值小于阈值,则判定为该Regulons在该细胞中未开放,即未发挥调控作用。

Reference

代码语言:shell复制
https://mp.weixin.qq.com/s/5Ekozso2TddqOAdG8dc4XA
https://assignmentpoint.com/transcription-factor/
https://mp.weixin.qq.com/s/QehrC8a7kX9KuMfwKxI9Iw
https://mp.weixin.qq.com/s/AJmVF1mRYQcuG73iKmkWQg
https://mp.weixin.qq.com/s/pjWG1VyVvytKo2RNQzDcNg

0 人点赞