随着公共数据库的建立和开放,越来越多的研究者可以接触到测序数据,非常适合我们这种“三无”研究者(无课题,无经费,无文章)运用公共数据找点事情干,可以是另辟蹊径从某个独特的视角重新分析已有的数据发发文章,也可以在没钱做测序的情况下看看自己研究的基因在别人的数据里是什么样子,积攒一些研究基础。不过想玩转生信大数据,面前总是隔着一座计算机编程的高山,门槛太高让众多小白望而却步。
今天就来介绍一个非常友好的TCGA数据分析和可视化的神奇网站。TCGA应该不用过多介绍了,癌症和肿瘤基因图谱计划,包含了最全面的测序数据。提起TCGA的数据分析网站,cBioPortal 的大名谁人不知,谁人不晓?不过今天要介绍的不是它,关于cBioPortal使用的文章已经铺天盖地了,我凑个啥热闹。今天要介绍的是另一款国人建造数据库,个人觉得在分析的自由度上面秒杀cBioPortal。更重要的是真好用的网站居然没有搜到太多的帖子来介绍,真是太不应该了。
好了, 写了那么一大段居然还没有出现主角的名字,我实在该打。当当当当~上图上链接!GEPIA(Gene Expression Profiling Interactive Analysis),基因表达谱数据动态分析,官方网站:http://gepia.cancer-pku.cn/index.html
GEPIA首页
界面是不是非常简洁干净?
This tool is developed by Zefang Tang, Chenwei Li and Boxi Kang of Zhang Lab, Peking University. Tang, Z. et al. (2017) GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res, 10.1093/nar/gkx247.
该网站由北大张泽民教授团队开发,更新一下前人帖子所述的,目前已经发表了文章。记得引用!记得引用!!记得引用!!!(重要的事说三遍,这是对原创工作者的尊重)
The RNA-Seq datasets GEPIA used is based on the UCSC Xena project ( http://xena.ucsc.edu ), which are computed by a standard pipeline
由官方介绍可以看到,GEPIA数据库是基于UCSC Xena计划的数据获得的。从搜索栏可以看出,该网站的分析主要有三个板块。为了方便看,我用思维导向图的形式给大家总结出来。
GEPIA index.png
Single Gene Analysis
顾名思义,单基因分析,纵观感兴趣的基因在不同肿瘤中的概况。和大部分数据库一样,输入基因名的时候会出现下拉菜单,方便准确定位基因名。我们以网站给出的示例基因ERBB2检索。也可以从网页右上角的GoPIA进入,然后从Quick Search处输入,进行检索。两种方法都会跳转到同样的界面下。
ERBB2检索结果
检索出来的页面中有不同的标签,可以针对检索的基因进行各种分析,比如做表达水平图,生存分析,相关性分析等。一会儿慢慢说。
General 概况
首先是对ERBB2基因概况的介绍。包括该基因在其他数据库的快速链接,包括GeneCard,NCBI等。最拉风可爱的是右边这个Bodymap小人儿图,显示了该基因在人体不同器官组织中的表达情况,红色的表示肿瘤组织,绿色的表示正常组织。颜色越深表示表达水平越高。ERBB2可能看不出非常大的差别,我找了两个奇葩一点的例子,一个是器官分布具有特异性,并且只在肿瘤中异常高表达;一个是肿瘤情况下该表达的器官低表达,不该表达的器官异常表达。
Bodymap1
Bodymap2
往下拉是ERBB2基因在各种肿瘤 / 正常组织中的表达水平展示,散点图和柱状图各取所需。看不懂癌症分类的缩写没关系,网站非常贴心的在最上面放了一个“Click here to get the extensio of tumor abbreviations”,点击即可显示这些所写的全程,也不会跳转页面或者弹出新的窗口。
dot plot
bar plot
再往下走是与正在检索的基因表达类似的基因,点击任意基因的名字就可以进入这个基因自己的GoPIA检索页面,对它进行单独分析。该页面是新建窗口弹出的,所以不用担心正在检索的基因找不到了,因此也可以同时查看多个基因,方便挑选合适的伙伴。
Expression DIY 表达水平作图
在Expression DIY标签下可以对检索的基因进行表达水平的作图,从下拉菜单可以选择Profile散点图,Boxplot箱式图和Stage plot小提琴图。Multiple gene comparison不用管它,那是做多基因分析时用的。每一种格式的图都可以DIY作图的参数,选择呈现的癌种并对其进行排序,甚至颜色和大小。这里我特别想吐槽一句,不愧是国人的数据库,画起来就是快,刷刷刷!生成的图点击download或者右键进行下载,均是pdf格式。
Survival 生存分析
然后我们来看看激动人心的生存分析,毕竟对于医学研究来说,最关心的是研究对象是否具有临床意义。同样Survival标签也有下拉菜单,单基因分析时只用Survival Plots就可以了,另一个是多基因分析时用的。生存分析超高的自由度令人惊叹,配合作图的网速加成,是我强烈推荐这个数据库的原因。我们就来上图看看参数设置界面是怎么样的。
生存分析参数设置界面
首先在“Datasets Selection”处选定要分析的癌症肿瘤,点击“Plot”就可以生成生存曲线图。生存曲线图上面讲所有的参数进行了罗列,并计算了Logrank和HR值。不需要呈现的也可以通过勾选来去除。
生存曲线图
对于大部分研究来说,仅仅看看总生存(Overall Survival)就可以了,但是有些基因可能对总生存没有什么影响,但是却能左右疾病的进展和预后,仍然非常有意义。大部分生存在线工具,只能分析总生存,GEPIA非常全面的也未大家提供了分析PFS的选项。另外一个最大的优势是在于基因表达高低分组这里,上下限的cutoff可以自己定义,真的是想怎么分就可以怎么分,随心所欲。对应获得多少例分组到高表达,多少例分组到低表达,在生存曲线图上都显示记录了。虽然这样做出来的“有意义”的生存曲线多少有点玩数据嫌疑,可能无法提供多大的临床意义,但是对用于对基因的探索还是有帮助的,了解这个基因与患者生存因素相关的表达模式,为研究者提供参考。
Similar Gene
这里是General界面下相似基因的扩展页面,在参数选择上更加细分,可以罗列Top 1 到Top 9999999的相似性基因,是的,你没看错,Top 9999999,选择框里填多少都不报错,只是会死机……大家不要像我这么无聊的去尝试这个上限。当然,列那么多也没有什么意义了。此外,也可以选择分析相似基因的范围,是指定类型的肿瘤上的,或者是指定类型的癌旁上的,抑或者是组织特异性表达数据库里的。
Correlation 相关性分析
单基因分析里最后一个能做的就是单基因的相关性分析了。可以查看感兴趣的两个基因在指定的组织中表达的相关性。所以这个标签页也可以说是做multiple gene analysis分析的。Gene A和Gene B可以手动输入,使用的是HGNC数据库的Gene Symbol,当然我试了一下,用ERBB2另外一个名字,Her2也能认出来。但是想含有希腊字母的其他基因,如NF-kB,b-catenin,还是推荐使用Gene symbol,避免出错。
Correlation analysis
到这里,单基因能做的分析就做完了,是不是已经对课题设计有了些思路呢?或者已经获得了些可以用的分析结果?下面我们来看看多基因可以做些什么分析。
Multiple Gene Analysis
多基因分析时和单基因分析的套路一样,基因表达水平的呈现,相关性分析和PCA主成分分析。相关性分析和上述单基因分析时在同一个界面下,所以我们就不再复述,剩下的我们一个一个来看看。
Multiple Gene Comparison
这个在之前说到的Expression DIY标签下,最后一个。参数设置页面如下。可以在Gene list里给定一些基因,然后在Dataset里选择想分析肿瘤类型,Tissue Order里可以运用鼠标拖动排序,在选择栏里可以选择只看肿瘤样本还是匹配上正常组织的样本。同样点击“Plot”进行绘图。
Multiple Gene Comparison设置界面
这里想强调一下,几个基因或者几个癌种的比较就不要用这个功能来作图了,做出来的如下所示,巨丑。人家是做大数据分析的,那么请拿出点数据量来。太少的话,我推荐直接用单基因作图的方法做,然后在photoshop里面合并。
巨丑且没意义
要做就做这样的
光标停在图上时,左上角会出现一排选择按钮,从左到右第一个是直接保存图片,为png格式。如果不满意目前的配色,可以点击第二个按钮,save and edit plot in cloud。会跳转到另一个网站上,对图片进行修改和保存。这个网站就留给大家自己探索了。似乎是个专业进行数据可视化的网站,可以做各种图。需要注册。等我有空探索完,再来写个攻略。
save and edit plot in cloud
PCA 主成分分析
多基因的降维分析一般使用的是PCA主成分分析(Principal Component Analysis),主要原理和算法我们不需要详细了解,我们只要知道它可以将一系列基因,根据其表达模式,进行一个分析,使得表达相近的聚在一起。反过来,也可以利用基因,对样本进行主成分分析,能将肿瘤和正常组织分开的基因,被认为具有很好的诊断价值。一般基因2个或者3个主成分分析。也就是对应绘制2维和3维的PCA图。无奈,GEPIA不知道为啥,这一功能在我的电脑上总是报错。引用这篇文章的图进行说明,《PCA主成分分析原理及分析实践详细介绍》,侵删。
PC2
PC3
Cancer Type Analysis
针对癌症类型的研究和前面两块从基因出发,在特定的肿瘤中进行分析的思路不同,相反是从指定的某种肿瘤类型出发,找出最有意义的基因,可以是在肿瘤和正常之间存在表达差异基因,或者是最能有效对患者进行生存和疾病进展预后的基因。当然这种已经在不同文章里做烂了的分析,大家也别想在这个网站获得新奇的发现。个人认为只能是提供一些参考价值。开发者做出来也只是让网站的结构更加完整罢了。大家可以自己探索。