生物信息学习的正确姿势
NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
生物通路是细胞内分子之间的一系列相互作用,会导致细胞内的产生某种产物或某种改变。这种通路可以触发新的分子如脂肪或蛋白质的组装。通路也可以开启或关闭基因,或者刺激细胞移动。一些最常见的生物通路涉及到代谢、基因表达调控和信号传导。通路在基因组学的高级研究中起着关键作用。
通路信息可以从大量数据库获得,包括从专业校对过的高质量数据库和通过对文章摘要进行自然语言处理和文本挖掘产生的大量假定通路的数据库(生信宝典之傻瓜式 (五) - 文献挖掘查找指定基因调控网络)。由于不同数据库大小、质量和属性不同,用户需要根据自己目的选择使用正确的数据库。
KEGG
KEGG (Kyoto Encyclopedia of Genes and Genomes) (http://www.kegg.jp/)是由京都大学生物信息学中心和东京大学人类基因组中心共同开发的一系列数据库。正如名字百科全书所暗示的,数据库包括系统理解生物学所必需的信息,如基因组序列和化学信息。KEGG许可证由path Solutions Inc.出售(http://www.pathway.jp/)。
KEGG的独特之处在于其对酵母、小鼠和人类代谢通路的关注和覆盖。目前,细胞周期和凋亡的信号通路正在扩展。阅读和总结相关文献的专业人士持续更新通路信息。数据库以KEGGML的格式存储。由于通路随后显示为GIF文件,用户无法轻松编辑通路信息。但可以借助第三方工具如 Pathview包:整合表达谱数据可视化KEGG通路进行编辑和展示。
BioCyc
BioCyc是SRI国际提供的通路数据库(http://www.biocyc.org/)。该数据库最初由SRI国际生物信息学研究小组建立,是一个专注于代谢通路的高质量数据库。与BioCyc相关的有EcoCyc、MetaCyc、HumanCyc数据库。许可证对学术和非营利组织都是免费的。人类和大肠杆菌是主要的生物体,还有其他各种生物体。EcoCyc主要是大肠杆菌代谢通路的数据库,用化学方程式的形式显示。EcoCyc也包含少量的信号通路。策展人从文献中提取了通路知识。使用专用格式描述通路。
此外,还列出了代谢通路上游的基因调控信息。提供了代谢通路与基因编码的酶及其调节因子之间的联系。通路图根据对细节关注的不同分开显示。在最详细的层面上,代谢产物以化学方程式的形式显示出来。
Reactome
Reactome数据库包含细胞代谢和信号通路(http://www.reactome.org/)。冷泉港实验室、欧洲生物信息学研究所和基因本体联合会是该项目的主要开发者。以人类相关数据为主,同时包含22种其他物种的数据,比如小鼠和大鼠。Reactome的通路和化学反应可以通过网页浏览器查看但不能编辑。虽然存储格式是专有的,但大量的通路可以导出为多种格式。没钱买KEGG怎么办?REACTOME开源通路更强大
WikiPathways
WikiPathways是一个致力于贡献和维护生物通路内容的社区资源。任何维基通路的注册用户都可以贡献,任何人都可以成为注册用户。贡献是由一组管理员监控的,但是大部分的同行评审、编辑管理和维护是用户社区的责任。WikiPathways是使用MediaWiki软件、一个自定义的图形通路编辑工具(PathVisio)和涵盖主要基因、蛋白质和代谢物系统的BridgeDb数据库构建的。
商业通路数据库
Ingenuity Pathways Knowledge Base
Ingenuity Pathways Knowledge Base (IPKB)是Ingenuity Systems Inc (http://www.ingenuity.com/)创建的通路数据库。所有的许可,包括学术许可和非营利性许可,都需要付费。该数据库包括基因调控和信号通路。专业人士文献中提取信息更新次数据库,该数据库目前包含人类、小鼠和大鼠的遗传信息。
ResNet
ResNet (http://www.ariadnegenomics.com/)是由Ariadne基因组公司创建的pathway数据库。学术和商业执照都需要付费。ResNet的通路主要包括基因调控通路和信号转导通路。与其他数据库不同,ResNet是通过计算机分析构建的。换句话说,这些通路和网络是通过对相关文献进行自然语言处理而形成的。MedScan用于这个自然语言处理过程。数据库主要是由PubMed中的摘要构建的,但也有一些条目使用了全文。此外,还有少量由专业人士认证的通路。由MedScan创建的通路数据可以通过查看工具pathwayStudio查看。与其他数据库类似,MedScan使用自己的专有格式。
Meta-datadatabases
Meta-data数据库实现了对各种数据库中所包含的知识的整合。
PathGuide (http://www.pathguide.org/)是一个互作和通路相关资源的综合汇总,目前在它的Meta-数据库中列出了超过702个资源。
PathwayCommons和Consensus PathDB是存放整合的生物通路数据库的例子。特别是前者,从不同的数据库收集数据,并以标准化的格式进行存储。
这些Meta-data数据库特别适合合并通路信息进行分析。
生物数据库的局限性
虽然数据的组织和存储对数据库至关重要,但还有其他需要注意的。首先,数据库集成存在本体层次上的不一致性;因此,非标准化的命名法需要一种变通方法,这就需要不断映射。另一个主要问题是,数据可能是不完整的、模棱两可的、包含错误、冗余或与文献不一致。随着新知识的发现,可能还需要定期更新。专用数据库的问题包括通路数据库中的通路图,通常在本质上是静态的,只代表生物学的一个快照。重要的是,在某种程度上评估和考虑这种可变性,以便数据库的终端用户能够从中获益。
结论
通路数据库还处于早期阶段,需要不断的完善和更新。但不能因为不完善就不去做,事情总是需要从0到1,从1到10不断去积累的。你的数据也可以-两篇NAR的数据库
参考:https://omicstutorials.com/introduction-to-biological-pathway-databases/