NAR:脑疾病研究的“金牌助手”:BrainBase

2021-12-29 13:33:28 浏览数 (1)

脑是人体的神经系统中枢,也是最复杂的人体器官,不仅控制思想、记忆、语言、运动,也调节许多其它器官的功能。阿尔兹海默症、胶质瘤、帕金森综合征、抑郁症等脑疾病严重威胁人类生命健康。国内外已开展实施多项“脑研究计划”,如中国“脑科学与类脑研究”、美国“BRAIN Initiative”、欧盟“Human Brain Project”等,旨在加深人类对脑疾病、结构和功能的理解,加速在脑健康、类脑计算及智能技术方面的应用。

为促进脑疾病知识整合、组学数据挖掘与再利用,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心发布了脑疾病知识库BrainBase(https://ngdc.cncb.ac.cn/brainbase),以“BrainBase: a curated knowledgebase for brain diseases”为题于2021年10月在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。

BrainBase主页

BrainBase致力于提供脑疾病-基因关联知识,注释药物-基因互作信息,鉴定脑“特异”表达基因,挖掘胶质瘤的特征基因并提供多组学数据可视化图谱,为揭示脑疾病的发生发展机制提供重要数据资源。

数据库核心功能及操作演示

BrainBase提供检索、浏览、可视化等功能,方便用户通过不同脑疾病、基因进行检索和浏览,在单基因页面展示了所有相关注释与分析结果,并以模块化的结构突出不同研究主题。

1.单基因页面

在主页搜索基因Symbol,如EGFR,跳转到基因页面。该页面包含以下信息:基因基本信息(Summary)、脑疾病-基因关联知识(Diseases)、药物-基因互作信息(Drugs)、脑“特异”表达基因(Specific Gene)、胶质瘤多组学知识注释(Omics Signature)和可视化图谱(Omics Profiles)。

EGFR基因页面——基因基本信息

“Diseases”展示EGFR-脑疾病的关联知识,显示多篇文献报道EGFR与胶质瘤发生发展有关;“Drugs”则列出了脑疾病研究中EGFR作为药物靶点关联的药物和脑疾病。

EGFR基因页面——脑疾病-基因关联知识和药物-基因互作信息

“Specific Gene”方便用户了解基因在脑组织、脑区域、脑脊液、脑细胞水平上的“特异”表达情况。下图显示,EGFR在脑脊液和单细胞层面均表现出“特异”表达模式,点击

号可查看详细信息。例如,单细胞测序分析表明EGFR可作为神经元细胞的“cell marker”,点击文章链接可了解详细内容。

EGFR基因页面——脑“特异”表达基因

为促进脑疾病致病机制的深入研究,“Omics Signature”对已发表的胶质瘤高质量文章进行了系统的多组学水平注释,详细介绍该基因在基因组变异、表观修饰、RNA和蛋白表达等方面的研究结果。其中“Molecular Role”表格列出分子水平变化、描述信息、相关通路、对肿瘤进程影响;“Regulation Axis”围绕该基因的下游靶基因和上游调控因子阐述调控机制;“Experimental Sample”列出了相关研究的实验样本和临床信息。

EGFR基因页面——胶质瘤多组学水平注释

目前已积累大量胶质瘤组学数据,可为挖掘潜在的胶质瘤分子标志物和诊疗靶点提供数据支持。“Omics Signature”整合21组公开发表的胶质瘤多组学数据集,围绕不同分子层面、胶质瘤类型、临床组别、生存差异,提供多场景多维度的基因分子特征可视化图谱。在此基础上,鉴定四组重要的特征基因(可从“Featured Genes”模块获得)。

EGFR基因页面——胶质瘤多组学分子特征可视化图谱

2.模块内容

除了以基因为核心的单基因页面展示形式,BrainBase针对脑疾病-基因关联知识、药物-基因互作信息、脑“特异”表达基因、胶质瘤多组学知识注释以及可视化图谱,分别建立了单独的模块,便于每个主题下基因间或疾病间的比较分析。

疾病模块(“Diseases”)包括123种脑疾病的7,175条疾病-基因关联信息。用户可以通过选择脑疾病的大类来获得相关脑疾病的条目,可以点击脑疾病名称跳转到疾病详细页面,查看与该疾病相关的所有基因和药物信息,也可以按照基因类型进行筛选。

疾病模块

药物模块(“Drugs”)包含8种脑疾病、2,118种药物/化合物与623个基因的16,591条药物-基因关联信息。用户可通过点击脑疾病、基因和药物名字来浏览相关条目。

药物模块

脑“特异”表达基因模块(“Specific Genes”模块,同时也可在“Genes”模块获取)包括了脑组织、脑区域、脑脊液、脑细胞水平上的“特异”表达基因。例如,“Brain-Specific Genes”页面展示了639个脑特异表达基因,用户可以通过选择感兴趣的基因类型获得对应的脑特异基因列表。“τ-value”值越接近1表明特异性越强,“Expression Breadth”表示该基因在多少组织中表达,“1”表示只在脑组织中表达。

脑“特异”表达基因模块

为了更简洁清晰地展示上述模块的综合信息,BrainBase建立了基因模块(“Genes”)。用户可以通过搜索基因名以及疾病名来查询对应的信息,也可以在脑疾病、药物靶点以及5类脑“特异”基因内容前勾选“✔️”以浏览感兴趣的基因列表。

基因模块

胶质瘤多组学知识审编模块(“Omics Signatures”)提供胶质瘤多组学水平的文献注释信息,目前共涉及363个基因相关的656个条目。用户可以在多组学水平上浏览与胶质瘤发生发展密切相关的“hot genes”,了解这些基因参与的通路、生物学过程,以及胶质瘤标记物类型。此外,针对某个基因,可在单基因页面了解相关信息。

胶质瘤多组学知识审编模块

胶质瘤多组学可视化图谱模块(“Omics Profiles”)围绕不同胶质瘤亚型、临床组别以及生存差异,在基因组、转录组和表观组水平提供基因的组学分子特征的可视化图谱。用户可以选择组学类型,在搜索框中输入基因Symbol获得对应的组学图谱。

胶质瘤多组学可视化图谱模块

为进一步挖掘胶质瘤关键基因,BrainBase开发了特征基因模块(“Featured Genes”),提供4组对临床研究有指示作用的特征基因:多组学水平上普遍表现出显著差异(P<0.001,FDR<0.01)的基因(UDGs),以及在表达/DNA甲基化/CNV水平上具有显著差异(P<0.001,FDR<0.01)的基因(DEGs/DMGs/DCGs)。不同国家/地区的数据集用不同的颜色进行了标记,以便于用户查看基因在不同人群中的异质性。用户可以在感兴趣的组别前选择“✔️”,查看该组特征基因在不同场景(如肿瘤/正常、胶质瘤级别、IDH突变状态等)下的表现。这些特征基因将为胶质瘤研究提供重要参考。例如,课题组通过深入分析胶质瘤多组学数据集,发现归属于UDGs的基因PRKCG是一个脑特异表达基因,它在胶质瘤诊断、预后生存以及临床用药方面都有潜力发挥作用,暗示该基因与脑的健康状况紧密相关,是胶质瘤的一个候选标记物。

胶质瘤特征基因模块

BrainBase提供所有相关注释信息与分析结果的FTP下载,有望成为脑疾病研究的重要数据资源和共享平台。

北京基因组所(国家生物信息中心)特别研究助理(博士后)刘琳,博士研究生张阳及牛广艺为本文共同第一作者,马利娜副研究员与章张研究员为共同通讯作者。该研究得到了中科院战略性先导科技专项、国家重点研发计划、中科院青促会等项目资助。

参考文献

1.Liu L, Zhang Y, Niu G, Li Q, Li Z, Zhu T, Feng C, Liu X, Zhang Y, Xu T, Chen R, Teng X, Zhang R, Zou D, Ma L, Zhang Z. BrainBase: a curated knowledgebase for brain diseases. Nucleic Acids Res. 2021 Oct 30:gkab987. doi: 10.1093/nar/gkab987. Epub ahead of print. PMID: 34718720.

2.Liu L, Wang G, Wang L, Yu C, Li M, Song S, Hao L, Ma L, Zhang Z. Computational identification and characterization of glioma candidate biomarkers through multi-omics integrative profiling. Biol Direct. 2020 Jun 15;15(1):10. doi: 10.1186/s13062-020-00264-5. PMID: 32539851.

0 人点赞