最近做培训时整理的一部分TCGA相关数据库的使用总结。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。
本文包括了TCGA
本站中数据的浏览、下载,尤其是TCGA改版后的功能介绍(增加了OncoGrid
展示),然后是cBioPortal
,TCGA数据在线提供的分析类型最多的一个平台,再是FIREBROWSE
,比较不错的在线展示和方便的数据下载功能。
TCGA主站
TCGA分析了11,000
个病人的33
种肿瘤的7
个不同层面的数据,共获得2.5 PB
数据。
意在解析癌症发生的分子接触、肿瘤的亚型和治疗靶点等。
TCGA网站主要提供的是数据的浏览和下载功能,可以根据项目、个体、数据类型、肿瘤类型等筛选需要的数据,使用TCGA提供的工具下载,进一步分析。
TCGA项目促成了不少的高水平文章,对这些文章的阅读是对癌症知识的学习,也可以很好的扩展研究思路。
如果你需要帮助,WIKI是最好的伙伴。
最新版的TCGA增加了一些分析的功能,主要是展示基因的信息、突变频率、突变位点分布、OncoGrid信息等。
在搜索框搜索基因
,癌症类型
,个体编号
会有不同的结果体验。
查看基因在哪种癌症中突变最频繁
突变位点在基因和功能域的分布,纵轴表示突变个体数目。
基因每个位点的突变频率,为上图纵轴信息的表格展示。
乳腺癌中突变频率最高的基因和病人生存曲线
500个突变最多的个体和50个最高突变的基因,顶部柱状图代表每个个体中这50个基因的突变位点数目,右侧柱状图表示含有每个基因突变位点的个体数目,热图不同颜色代表不同的突变类型,下方2个颜色条代表临床信息和数据类型,右侧的第一个颜色条代表该基因是否是Cancer Gene Census
(The Cancer Gene Census is a list of genes with substantial published evidence in Oncology.),第二个颜色条代表突变影响到的个体数。
cBioPortal功能强大的TCGA再分析平台
cBioPortal可查询选定的癌症中某一通路的基因或用户自定义的多个基因的信息,多个基因的结果部分合并展示,部分独立展示。下面以TP53
和BRAF
为例。
柱状图展示了2个基因在选择的样品(横轴)中的突变类型(不同颜色)及其突变频率(纵轴)的分布。
鼠标悬浮柱子上可查看详细信息,Click View details
查看更多信息。
查询基因在选定样品中的突变情况概览。
Mutation
面板进入查看基因水平突变的分布
基因之间是否存在并发或互斥的突变
基因共表达分析
查询基因与突变频率最高的基因中连接最多的50个基因之间的互作网络
包含查询的基因突变的病人和其它病人之间的生存分析比较
BROAD开发的TCGA分析平台,强大的下载功能。
特定基因表达谱查询
类似于OncoGrid显示特定癌症中没Mb的突变率、突变类型、基因突变类型的分布。
FIREBROWSE的特色是提供了比较多类型的关联分析。
数据分析方法描述、下载
把基因根据表达量的四分位数分为4组之后的生存分析结果
数据整体下载,FIREBROWSE提供了一个脚本工具,可以按需下载