非常多的粉丝在我们生信技能树后台留言询问,为什么他/她关注的基因明明是癌基因,明明是在肿瘤病人高表达(TCGA数据库搜索后的结果),但是却发现它对生存的影响居然是保护因子!(同样的网页工具)
所以我这里安排一个学徒作业,大家需要去下载TCGA数据库的BRCA这个癌症的芯片和RNA-seq的表达矩阵,分别进行差异分析,拿到统计学显著的上下调基因列表。
同样的,根据表达量把病人分成高低表达两个组后进行生存分析,这里主要是COX方法,把基因区分成为风险因子和保护因子。
然后把两次分析的基因列表取交集,会拿到9个基因集,加油!
当然了,你还可以把这个任务继续细化,比如可以把基因区分成为编码和非编码的,然后BRCA本身可以区分成为4个亚型,分开分析。
关于TCGA数据挖掘
我喜欢把TCGA数据库的应用划分为8个领域:
- 1、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)的预后(生存曲线)
- 2、探索各类肿瘤与对照的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(箱线图)
- 3、探索各类肿瘤与对照的全局(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(差异分析流程)
- 4、探索各类肿瘤中两个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平相关性(散点图)
- 5、探索各类肿瘤中多个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平总结(热图)
- 6、探索各类肿瘤中单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)与所有其它分子相关性并且排序
- 7、探索各类肿瘤中单个基因突变或者单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的预后(生存曲线)
- 8、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)分组后的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)特性的分布
关于TCGA数据库
TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
- DNA Sequencing
- miRNA Sequencing
- Protein Expression array
- mRNA Sequencing
- Total RNA Sequencing
- Array-based Expression
- DNA Methylation
- Copy Number array
知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:
- Broad Institute FireBrowse portal, The Broad Institute
- cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center
关于生存分析
我已经在生信技能树公众号已经多次介绍过生存分析:
- 集思广益-生存分析可以随心所欲根据表达量分组吗
- 生存分析时间点问题
- 寻找生存分析的最佳基因表达分组阈值
- apply家族函数和for循环还是有区别的(批量生存分析出图bug)
- TCGA数据库生存分析的网页工具哪家强
关于差异分析
B站视频,几乎一半,都是围绕差异分析来的。
- 转录组的上游分析视频以及代码资料在:https://share.weiyun.com/5QwKGxi
- 下游主要是基于counts矩阵的标准分析的代码 https://share.weiyun.com/50hfuLi
如果你能独立完成这个学徒任务,就说明你出师了。