为什么不用TCGA数据库来看感兴趣基因的生存情况

2020-01-16 15:14:49 浏览数 (1)

我们已经多次介绍过生存分析:

  • 集思广益-生存分析可以随心所欲根据表达量分组吗
  • 生存分析时间点问题
  • 寻找生存分析的最佳基因表达分组阈值
  • apply家族函数和for循环还是有区别的(批量生存分析出图bug)
  • TCGA数据库生存分析的网页工具哪家强

而且使用TCGA数据库来看感兴趣基因的生存情况非常简单,一个网页工具即可,都无需R语言了。即使是这样,仍然是有文章并不使用TCGA数据库来看感兴趣基因的生存情况,比如 Cancer Res. 2016 April 1; 文章:

Phosphatase PTP4A3 promotes triple-negative breast cancer growth and predicts poor patient survival

使用的是发表在 BMC Cancer. 2011 的 文献的数据,文章题目是:Correlation of microarray-based breast cancer molecular subtypes and clinical outcomes: implications for treatment optimization.

这个2011的研究表达矩阵在 GEO database (GSE20685) :Gene expression profiling was conducted on fresh frozen breast cancer tissue collected from 327 patients in conjunction with thoroughly documented clinical data.

虽然说这个2011的研究表达矩阵和临床信息比较齐全,但并不意味着不能使用TCGA数据库。

学徒作业

首先必须是去TCGA数据库看这个PTP4A3基因是否具有显著是生存分析结果咯,网页工具或者自己下载数据文件使用R均可。

然后把这个2011的研究表达矩阵 (GSE20685) 全部的基因批量做生存分析(表达量中位值分组),把具有统计学显著的基因列表拿到。

补充作业cox结果森林图展现

其实下面的表格大家也可以尝试做一下,就是把cox生存分析回归结果整理和理解一下。然后尝试把这个表格变成森林图,比较一下图表到底哪一个更直观。

提示:在R语言里面,使用forestplot 包

最后是友情推广

如果你也对学徒培养或者实习职位感兴趣,想在我们的指导下完成肿瘤外显子等NGS数据分析,可以先看看我是如何培养学徒的:

  • 七步走纯R代码通过数据挖掘复现一篇实验文章(第七步WGCNA)
  • 可能只是一个函数,却要耗费你大半天
  • 你要挖的公共数据集作者上传了错误的表达矩阵肿么办(如何让高手心甘情愿的帮你呢?)
  • 你可能不适合做人(学徒给我的6个暴击)

当然了,学徒培养看缘分!发邮件给我申请:jmzeng1314@163.com

  • 实习生(生物信息学知识体系的建立)招募

0 人点赞