背景
转录因子(transcriptionfactor, TF)是直接作用于转录组上,调控DNA转录的蛋白质。它通过与DNA特定区域结合(TFBS/motif),促进(activator)或阻止(repressor)DNA的转录过程,了解转录因子对于解析细胞的功能及生命活动有重要作用
分析流程
对亚群细分类分析,也可以对不同的实验组分析
Step 1 构建共表达网络
输入的数据是标准化的count矩阵(行是基因和列是细胞),从中找出TFs调节的基因构建共表达网络。因此需要先验知识TFs及其靶基因集合(可以从数据库下载)。
这个共表达网络只是基于TF和gene表达量相关性推测的,TF和gene之间是否现实存在调控关系还需要进一步确证。确证的方法主要从TF功能结构入手,从图1我们可以看出,TF是通过直接与DNA结合而发挥作用的,因此我们可以通过反向查看gene上是否存在TF结合的motif序列来验证TF与gene的靶向关系。
Step 2 motif富集分析
进行TF-motif富集分析,识别直接靶标。仅保留具有正确的上游调节子且显著富集的motif modules,并对它们进行过滤以除去缺乏motif支持的间接靶标。这些处理后的每个TF及其潜在的直接targets genes被称作一个regulon。
具体过滤过程,首先基于gene-motif数据库,每个motif对模块中所有基因进行累积,模块中的基因排名越靠前,累积曲线越高,曲线下面积 (AUC) 越大,表明motif在该模块中的富集程度越高,然后对每个模块选取显著富集的motif,并预测其靶基因,最终综合TF-genes模块和靶基因预测结果,构成一个包含了TF和靶基因的基因调控网络模块 (regulons)。
Regulon调控子:受同一个TF调控的一群基因的集合,即one Regulon = one TF target genes
Step 3 AUCell对每个细胞的每个regulon活性进行打分
对于一个regulon来说,比较细胞间的AUCell得分可以鉴定出哪种细胞有显著更高的subnetwork活性。
原理:AUCell基于基因集(Regulons中所有基因)打分,所得到的分数即为AUC(Area Under Curve)表示Regulons在细胞中的“活性”。
打分过程是针对每个细胞,将细胞中所有基因按照表达量从高到低进行排序,根据Regulons中的基因在序列中的位置,计算累计曲线面积 (AUC)。
Step 4 AUCell分数二值化
由于不同regulons包含的基因不同,它们之间的AUC值不具有可比较性,因此基于AUC值在所有细胞中的双峰分布特征,增加了Rgulons“on/off”的概念,认为双峰之间的低谷为判断Regulons活性开放的阈值,如果AUC值小于阈值,则判定为该Regulons在该细胞中未开放,即未发挥调控作用。
Reference
代码语言:shell复制https://mp.weixin.qq.com/s/5Ekozso2TddqOAdG8dc4XA
https://assignmentpoint.com/transcription-factor/
https://mp.weixin.qq.com/s/QehrC8a7kX9KuMfwKxI9Iw
https://mp.weixin.qq.com/s/AJmVF1mRYQcuG73iKmkWQg
https://mp.weixin.qq.com/s/pjWG1VyVvytKo2RNQzDcNg