介绍
生物信息学研究中,获取基因列表的GO和KEGG富集分析的需求非常常见。目前有许多生物信息学手段或者数据库可以实现基因富集分析,例如DAVID,但它们有些是收费的,有些不易于使用且很少维护。例如DAVID曾经有六年的时间(2010-2016)没有维护数据库,最近的更新也已经两年半了。而Metascape每月更新其相关的40多个数据库,以确保提供最准确的结果。因此Metascape数据库可以作为富集分析的比较好的手段。
该团队来自一个自发组织的科学家团队,该团队包括核心成员周颖耀,周斌,Lars Pache,Max Chang,Christopher Benner和Sumit Chanda,以及其他贡献者。 第一个Metascape应用程序于2015年12月9日发布。Metascape从那时起经历了多次发布。它目前支持常见的模式生物的富集分析,蛋白质 - 蛋白质相互作用网络,其结果可以自动呈现为科满足科研杂志要求的形式,同时可以输出为Excel和PowerPoint演示文稿满足科研交流。Metascape http://metascape.org/gp/index.html#/main/step1
分析工作流程
- 转换:将基因标识符从流行类型(如Symbol,RefSeq,Ensembl,UniProt,UCSC)转换为人类Entrez基因ID,反之亦然。
- 注释:从许多功能相关的基因注释中提取,包括蛋白质家族,跨膜/分泌预测,疾病关联,复合关联等。
- 成员:基于所选本体内的自定义关键词搜索来筛选GO条目。
- 富集:识别丰富的生物学通路,特别是GO术语,KEGG,Reactome,BioCarta,以及MSigDB中收集的其他通路等。此外,丰富的GO本体术语自动聚类以减少冗余以便于解释。蛋白质 - 蛋白质相互作用网络基于BioGRID,OmniPath,InWeb_IM构建,并且识别密集组分并进行生物学解释。
优点
- Metascape内容丰富:Metascape将40多种生物信息学知识库整合到一个单一的用户界面中。
- Metascape操作简单:实验生物学家可以快速分析多个基因列表的富集分析结果。
- Metascape数据库更新更快,效果更好。
- Metascape输出结果容易理解,图表质量较高。
- Metascape整合了GO、KEGG、UniProt和DrugBank等多个权威的数据资源,使其不仅能完成通路富集和生物过程注释,还能做基因相关的蛋白质网络分析和涉及到的药物分析。
实战
(1)Step 1粘贴基因列表或者上传基因文件。
上传的基因列表或者基因文件为这样的格式
(2)Step 2设定物种为人类。
(3)Step 3点Express Analysis
默认的Express Analysis会把许多个数据库的信号通路混一起,出现各种冗余。比如说默认把Reactome、KEGG、Hallmark和GO数据库全部一起展示,但是一般我们科研绘图时会分别展示GO一张图,以及KEGG一张图。
因此我们会在custome Analysis里面的enrichment选项中,从下至上,选择GO相关的数据库,然后勾选pick selective,然后点击enrichment analysis
最后结果如下:
其他数据库,如KEGG,步骤类似上述。