TCGA数据库挖掘肿瘤相关基因突变(2)cBioPortal

2019-11-14 14:43:05 浏览数 (1)

TCGA的“鸡肋”之处

TCGA是一个综合性的多组学肿瘤基因组数据库,除包含DNA测序之外,还包含了RNA测序、拷贝数、蛋白谱、甲基化等多个组学的数据,但是在TCGA的官方网站GDC Data Portal (https://portal.gdc.cancer.gov/)

仅有的几个功能模块中,却并没有发现可用的数据挖掘功能,在Analysis模块中也仅有可怜的两项功能:交集分析和队列比较。这两个功能,总结起来就两个字,鸡肋......

交集分析:其功能是对几个突变基因或突变位点的列表取交集,并绘制韦恩图。这功能非常草率的功能,我想自己用excel能更快地搞定。

队列比较:可以让用户选定两组不同的患者,然后对患者的年龄、性别、生存时间进行比较,该功能里唯一算有用的也就生存分析了吧。用过的同志们都知道,这个功能仍然非常不好用,因为患者的分组是没有办法灵活限定的。例如想比较一下乳腺癌中HER2突变阳性和野生型患者的生存曲线是否有统计学差异。不好意思,不能实现。

比较了现有声称可做肿瘤基因组数据分析的多个在线工具和数据库,从后台数据量、分析工具种类、分析结果准确度、可视化界面以及简易程度等多个指标进行综合测评后,发现了一个super好用,又super专业的分析网站—cBioPortal,堪称TCGA数据挖掘的终结者。

cBioportal

cBioPortal (http://www.cbioportal.org/)由Memorial Sloan Kettering Cancer Center (MSK)开发,是基于TCGA数据库开发的一款集数据挖掘、数据整合及可视化等多功能于一体的综合性开放网络平台。

开发者将该网站发表在Cancer Discovery(IF:24.3)上面,后来由于用的人太多,作者又把网站的说明书拿出来发了一篇Science Signaling(IF:6.4),可谓是real好玩 任性。由此可见,cBioPortal是经过专业杂志认可的数据分析工具,其可信度是相当高的。

下面直接带领大家来学习一下如何通过cBioPortal挖掘肿瘤数据。还是上面的例子:比较一下乳腺癌中HER2突变阳性的病人和野生型病人的生存曲线是否有统计学差异。我们按步进行:

cBioPortal(http://www.cbioportal.org/)打开网址以后,有一点要跟大家提一下,cBioPortal作为一个国外的网站,其访问速度并不算快,有时甚至出现网页打不开的尴尬场面,大家可在某宝购买一个V**,就可以快速打开了。

Step1

选择癌种,也就是研究对象。在cBioPortal中共有32个癌种,240个study,基本覆盖所有常见和个别少见肿瘤。如红框所示,这里我们选择“Breast”,“Breast”后面有个14代表乳腺癌中有14个相关的Study,而我们需要进一步选择Study,选择Study时主要根据肿瘤的病理类型,同时兼顾每个Study右侧的sample个数及该研究所包含的数据类型来选择。

在这里我们选择“Breast Invasive Carcinoma (TCGA, Provisional)”这个研究(蓝框所示)。这里需要跟大家说明的是,同个癌种的不同Study之间存在个别病人重复入组的现象。

Step2

选择需要分析的数据类型。这里的数据类型往往包括以下几种:Mutations(点突变和小的Indel)、Putative copy-number alterations (拷贝数变异)、mRNA expression z-scores(基因表达,可能来自于芯片或者RNASeq),可能还会有Protein/phosphoprotein level(蛋白表达水平,通过RPPA或者质谱检测得到),这里我们选择Mutations(红框所示)。

Step3

在“Enter Genes”里面输入你要分析的基因,这里我们输入“HER2”,发现网站报了错“Invalid gene symbols”,这是为什么呢?因为很多基因都有别名,而HER2不是一个正式的名字,系统帮我们检测到它的名字应该是ERBB2,我们点击一下文本框下面的ERBB2,它便自己改过来了。

仅需以上三步,之后,点击“Submit Query”即可开始分析。等待几秒到几分钟的时间,便会得到分析结果。

这里就要说一说cBioPortal强大无比的分析功能了,几乎包含了多组学研究中能够实现的所有分析功能,如下图所示,包括OncoPrint(基因突变图谱)、Cancer Types Summary(泛癌种基因突变汇总)、Plots(分析拷贝数变异与基因突变或者基因表达的相关性)、Mutations(基因突变列表、功能及蛋白3D结构)、Co-expression(基因共表达分析)、Enrichments(基因突变互作/互斥分析)、Survival(生存分析)、CN Segments(拷贝数分析)、Network(共表达网络)等多种分析结果。

这么多分析中,我们点击“Survival”即可看到基因突变型vs野生型患者的生存曲线及Logrank统计分析结果,图中有P value,下面的表格中还有中位生存时间。从这个结果中,可以看出HER2突变阳性的病人,其生存率要显著低于野生型患者,P值达到5.779e-3。

那么,这么漂亮的一个图怎么放到我们的SCI文章中呢?点击图片右上角的下载符号即可保存高清无码适量大图哦。

0 人点赞