前些天在《生信技能树》公众号提到了一个开放式讨论:富集分析排名第一的通路就是目标吗,因为干扰基因前后差异分析很容易得到成百上千个上下调基因,它们去做生物学功能数据库注释,也很容易得到几十条甚至上百个通路。
所以转录组差异分析不足以说明你的目标基因调控某个通路,哪怕是这个通路排名如何的靠前也不过是一个统计学指标罢了。比如文章:《Targeting PUS7 suppresses tRNA pseudouridy lation and glioblastoma tumorigenesis》就做了敲除PUS7基因前后的转录组测序然后差异分析,得到 205 upregulated and 46 downregulated genes in PUS7 KO GSCs compared with control GSCs.
然后就Gene Ontology 数据库注释,发现 the IFN pathway was the top Gene Ontology term that was regulated by PUS7 KO.
因为:Out of 205 upregulated genes, 80 were IFN-stimulated genes (ISGs), including CXCL10, IFIT1, ISG15, XAF1, MX1 and OAS1
富集分析 热图可视化差异基因
我们前面的讨论:富集分析排名第一的通路就是目标吗,指出来了因为干扰基因前后差异分析很容易得到成百上千个上下调基因,它们去做生物学功能数据库注释,也很容易得到几十条甚至上百个通路。也就是说,这个时候只能说PUS7基因调控干扰素通路是一个可能性很大的线索。目前简单的差异分析流程,基本上转录组测序技术和芯片技术拿到的表达量矩阵后续分析大同小异,公众号推文在:
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版 R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
干湿结合
作者还做了两个分析(干湿结合)来辅助这一点:
首先是湿实验:Upregulation of ISGs can be reversed by overexpressing WT PUS7 but not PUS7-D294A in PUS7 KO GSCs
然后是干实验:an inverse correlation between PUS7 expression and ISG expression in patients with GBM in the TCGA dataset
如下所示:
干湿结合
当然了,这个时候只能说证据链比较成分了,PUS7基因调控干扰素通路,但是 How does PUS7 regulate the IFN pathway? RNA-seq was not able to provide a clue.
如果感兴趣,就自己读文献:《Targeting PUS7 suppresses tRNA pseudouridy lation and glioblastoma tumorigenesis》
文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
- 生物信息学马拉松授课(买一得五) ,你的生物信息学入门课
学徒作业
去下载tcga数据库里面的gbm数据集,然后提取PUS7基因和上面的那些干扰素基因,计算它们的表达量相关性后,绘制如上所示的相关性圈圈图。