TCGA是不错的癌症研究数据资源,但癌症研究不只是有TCGA。ICGC国际癌症基因组联盟,有亚洲、澳大利亚、欧洲、北美和南美17个行政区的89个项目,包括25,000个肿瘤基因组。目的是To obtain a comprehensivedescription of genomic, transcriptomic and epigenomic changes in 50 different tumor types and/or subtypes which are of clinical and societal importance across the globe.
数据库的在线使用比较简单,根据提示输入想要查询的内容即可
TP53依然是突变频率最高的基因。
与TCGA不同的是,ICGC里面有多个国家的人群的数据
突变整体比较的经典图,每个点表示每个个体外显子区每MB区域体细胞突变的数目,不同区域的不同癌症归位一组展示。澳大利亚的皮肤癌(MELA-AU)整体突变率最高,英国的慢性骨髓病(CMDI-UK)突变频率最低。这里面有地域差异,也有疾病差别。R语言学习 - 箱线图一步法 R语言学习 - 箱线图(小提琴图、抖动图、区域散点图)
ICGC可以做在线富集分析,队列比较分析,集合分析和利用OncoGrid展示数据。
不同疾病或地域之间共有或特有的突变位点。 R语言学习 - 韦恩图
搜索基因后的详情页
基因突变频率分布
突变位点分布
所在基因组区域的展示
BRAF最频繁突变位点
突变位点影响注释
靶向突变位点的小分子化合物(伊马替尼,格列卫),对于药物设计有重要意义
小分子格列卫的属性
IMATINIB格列卫的其它靶点
正在开展的临床试验
某一疾病的信息展示
OncoGrid,在上一篇文章已经讲过,500个突变最多的个体和50个最高突变的基因,顶部柱状图代表每个个体中这50个基因的突变位点数目,右侧柱状图表示含有每个基因突变位点的个体数目,热图不同颜色代表不同的突变类型,下方2个颜色条代表临床信息和数据类型,右侧的第一个颜色条代表该基因是否是Cancer Gene Census (The Cancer Gene Census is a list of genes with substantial published evidence in Oncology.),第二个颜色条代表突变影响到的个体数。
OnCoGrid是一种形式的热图,有专用工具来绘制;但有时也可用普通热图工具来展示这些信息,具体见
R语言学习 - 热图简化
R语言学习 - 热图美化
R语言学习 - 热图绘制 (heatmap)
突变和未突变基因的生存分析比较
年龄与疾病关系分析
突变基因所在通路分析 (富集分析泡泡图绘制 富集分析DotPlot,可以服)
COSMIC又一个癌症突变数据库
主状图展示突变位点在不同疾病中的分布,R语言学习 - 柱状图
还有突变位点的蛋白结构,研究Docking
换个风格,人蛋白表达数据库,不同人体组织的蛋白质组和转录组数据。