最近课题组的文献分享会议上有一篇文章里面的生存分析和差异分析吸引了我的注意,所以分开介绍一下,并给出了学徒任务,希望大家可以自行抽空完成。文章发表于July 25, 2019 的JCI杂志,标题是 STING activation reprograms tumor vasculatures and synergizes with VEGFR2 blockade
本文的临床数据的生存分析,并没有使用TCGA数据库里面的病人信息,而是自己收集病人样本,记录其临床信息,随访时间等等。还采用IHC等病理技术手段来量化感兴趣的基因的表达量情况,最后全部使用自己的数据做出来了下面的生存分析曲线。
因为作者并没有上传这些临床信息,所以呢,是不可能重复出来作者的生存分析曲线啦。不过,我们的学徒任务是,去TCGA数据库,找到BRCA和CRC病人的该基因的表达量情况,对病人进行分组后会在生存曲线,看看是否也是具有统计学显著。
如果你感兴趣研究团队的数据收集过程,也可以继续读文献:
可以看到病人队列也不小了,两个癌症,每个一百多病人。研究者在检查STING这个基因表达量的时候,区分了内皮细胞和免疫细胞。这一点很有趣。
只有你对你的课题熟悉到一定程度才知道,并不是TCGA数据库里面的RNA-seq或者芯片数据检测到的STING这个基因表达量能区分生存就是你的生物学故事的证据支持。
临床资料整理
也详细描述了病理技术的来龙去脉,使用的仪器和商业抗体信息。
临床数据统计通常不使用R语言
这里值得强调的是,其实临床统计数据分析并不一定要使用R语言,甚至说,大部分都不会使用R语言完成统计分析。本文就是典型,使用的是收费软件,PRISM和SPSS。
临床三线表是必须的
这个我以前讲解过使用R语言如何绘制
可以根据临床信息细分为癌症亚型后继续生存分析
因为研究团队收集的病人临床信息比较全面,所以可以根据 stage 这个信息,把病人继续细分为3个分组后继续进行生存分析。
你的作业就是,使用TCGA数据源,制作本文里面的生存分析,看看显著与否!