我喜欢把TCGA数据库的应用划分为8个领域:
- 1、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)的预后(生存曲线)
- 2、探索各类肿瘤与对照的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(箱线图)
- 3、探索各类肿瘤与对照的全局(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(差异分析流程)
- 4、探索各类肿瘤中两个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平相关性(散点图)
- 5、探索各类肿瘤中多个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平总结(热图)
- 6、探索各类肿瘤中单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)与所有其它分子相关性并且排序
- 7、探索各类肿瘤中单个基因突变或者单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的预后(生存曲线)
- 8、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)分组后的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)特性的分布
前面我已经把一百多位优秀本科生带入了生物信息学的大门,接下来五年该大家奉献自己的博士成果了。如果大家感兴趣秀本科生活动, 已经带领了近100名优秀本科生了解生物信息学相关毕业设计:这120万我就不要了,送给500名优秀本科生,符合条件的继续报名哈!
不知不觉一个月都过去了,优秀本科生已经学完了R语言和Linux,虽然说他们还很稚嫩,也不可能这么快就有自己的服务器,但是已经都购买了最低配云服务器,见:还说啥呢,继续免费啊,里面的:购买入门级服务器免费送Linux直播培训服务,我相信他们的未来是光明的。
在没有服务器的日子里,就只能是先安排大家继续完善统计可视化的学习,包括我们一直强调的TCGA数据挖掘技能。
其中一个学生看到文献有下面这个图表,咨询如何做到:
我把它拆解一下:
- 首先下载TCGA某个癌症的maf文件,里面记录的是肿瘤病人的somatic突变信息
- 然后下载该癌症全部病人的临床信息
- 然后根据指定基因,比如上图的BAP1和SETD2在maf文件里面查询是否突变把病人分组
- 2个基因突变与否是可以分成4组,上图比较的是两个基因都没有突变的1个组,与剩余的3个组来看生存差异
- 生存曲线当然是R语言啦