我们已经多次介绍过生存分析:
- 集思广益-生存分析可以随心所欲根据表达量分组吗
- 生存分析时间点问题
- 寻找生存分析的最佳基因表达分组阈值
- apply家族函数和for循环还是有区别的(批量生存分析出图bug)
- TCGA数据库生存分析的网页工具哪家强
而且使用TCGA数据库来看感兴趣基因的生存情况非常简单,一个网页工具即可,都无需R语言了。即使是这样,仍然是有文章并不使用TCGA数据库来看感兴趣基因的生存情况,比如 Cancer Res. 2016 April 1; 文章:
Phosphatase PTP4A3 promotes triple-negative breast cancer growth and predicts poor patient survival
使用的是发表在 BMC Cancer. 2011 的 文献的数据,文章题目是:Correlation of microarray-based breast cancer molecular subtypes and clinical outcomes: implications for treatment optimization.
这个2011的研究表达矩阵在 GEO database (GSE20685) :Gene expression profiling was conducted on fresh frozen breast cancer tissue collected from 327 patients in conjunction with thoroughly documented clinical data.
虽然说这个2011的研究表达矩阵和临床信息比较齐全,但并不意味着不能使用TCGA数据库。
学徒作业
首先必须是去TCGA数据库看这个PTP4A3基因是否具有显著是生存分析结果咯,网页工具或者自己下载数据文件使用R均可。
然后把这个2011的研究表达矩阵 (GSE20685) 全部的基因批量做生存分析(表达量中位值分组),把具有统计学显著的基因列表拿到。
补充作业cox结果森林图展现
其实下面的表格大家也可以尝试做一下,就是把cox生存分析回归结果整理和理解一下。然后尝试把这个表格变成森林图,比较一下图表到底哪一个更直观。
提示:在R语言里面,使用forestplot 包
最后是友情推广
如果你也对学徒培养或者实习职位感兴趣,想在我们的指导下完成肿瘤外显子等NGS数据分析,可以先看看我是如何培养学徒的:
- 七步走纯R代码通过数据挖掘复现一篇实验文章(第七步WGCNA)
- 可能只是一个函数,却要耗费你大半天
- 你要挖的公共数据集作者上传了错误的表达矩阵肿么办(如何让高手心甘情愿的帮你呢?)
- 你可能不适合做人(学徒给我的6个暴击)
当然了,学徒培养看缘分!发邮件给我申请:jmzeng1314@163.com
- 实习生(生物信息学知识体系的建立)招募