上一期的教程给大家讲解了批量对TCGA中的基因进行生存分析的第一步。主要内容为:如何通过cBioportal去下载TCGA中的数据和患者的表型数据,然后通过R语言做了一个生存分析的KM图。本期,带领大家认识一下一次性进行成百上千个基因生存分析的黑科技。
大部分科研的套路都是从一个表型出发,筛出一个有意义的基因,然后对其进行深入的挖掘和功能实验。但是如何才能筛选到真正重要的目标基因呢?这个问题困扰着很多人。作为一名临床科研工作者,如果一个分子能够跟患者预后扯上关系,那么文章的档次立刻就上来了。如果我们能分分钟完成数百上千个基因的生存分析,那么以后的“筛基因”“找靶点”是不是就有了指路明灯了呢?有木有一点小激动呢~
科研猫团队生信分析团队推出全网首个批量进行TCGA生存分析的程序,只要输入你想分析的基因列表,下载相关肿瘤的数据文件,运行代码即可。我们给这个程序命名为Survival_Analysis_Terminator.R,没错就是“终结者”系列,一个代码,终结所有相关问题,无需求助其他软件。
为了演示,我在这里提交了500个基因,总运行时长仅3分多钟!是不是很心潮澎湃嗯?先来看个操作演示视频,这次配了音效,还挺燃的呢
代码运行后,会生成如下的三个结果文件:
1) 1.LogRank.Pvalues.csv,包括500个基因的生存分析Log-rank test的P值。
2) 2.Kaplan-Meier_plots.pdf,500个基因的KM图。你没看错,是一个500张高清矢量大图的pdf文件。
3) 3.KM_plots_with_significant_Pvalues文件夹,这个文件夹中包括数据所有log-rank test之后P值显著的所有基因的KM图,是tiff格式,方便大家写文章使用,可直接放到paper里面。
这三个文件和文件夹的截图如上图所示。所有分析都是自动化完成,无需修改任何代码。
为了完成这个代码,【科研猫】的整个生信团队付出了诸多心血,要知道这样的一个代码,就可以作为某些小型生物公司数据分析服务的技术核心。包括之前的所有代码和教程(GEO数据库挖掘、功能富集分析气泡图等),如果外包给公司做成case,每次分析费用至少2000 。
未经许可请勿随意转载,
版权事宜由上海辰明律师事务所提供法务支持