Genomics, Proteomics & Bioinformatics (GPB) 在线发表了中国科学院北京基因组研究所(国家生物信息中心)题为“GenBase: A Nucleotide Sequence Database”的数据库文章。我们的“要文译荐”栏目很高兴邀请到文章共同第一作者赵学彤博士为大家系统介绍基因序列数据库GenBase的构建与内容。
引言
基因序列和注释信息(包括DNA、RNA和蛋白序列信息)是支撑基因功能研究的核心基础数据之一。伴随生物学的迅猛发展,在过去几十年中,我国生命科学领域的科学家产出了海量的基因序列数据,其中许多已经提交到了国际核酸序列共享联盟(International Nucleotide Sequence Database Collaboration,INSDC)。目前,中国和其他国家/地区的研究人员严重依赖INSDC进行序列提交和检索。同时,测序技术的快速发展导致序列数据量的快速增加,这为及时有效的提交和共享带来了巨大挑战。为保障我国基因序列数据的主权和安全,满足我国科研人员在基因序列数据汇交、管理和共享过程中的现实需求,对标美国国家生物信息中心NCBI的GenBank数据库,我们完成了基因序列数据库GenBase的开发(https://ngdc.cncb.ac.cn/genbase/)。
GenBase是国家基因组科学数据中心的核心资源,它采用GenBank的数据模型,通过在线的双语提交系统支持提交多种数据类型,包括基因组DNA、mRNA、ncRNA,以及来源于细胞器、病毒、质粒和噬菌体的核酸序列。此外,GenBase集成了所有来自GenBank的序列,并保持每日更新,提供免费且公开可访问的数据,支持国际数据集的分发和共享,促进中国研究人员的数据访问。
数据模型和数据访问
GenBase的数据模型与INSDC数据模型兼容,并允许与两个CNCB-NGDC元数据描述数据库关联:BioProject 和BioSample。GenBase允许用户一次性批量提交来自多个物种的核酸序列。提交后,系统将生成一个带有 “sub” 前缀的唯一编号。经过质量控制,每个核酸序列被分配一个以“C_”开头,后跟2个字母、6个数字和序列版本号后缀的访问编号。同时,与给定核酸序列相关的每个蛋白质序列会分配一个以“C_”开头,后跟3个字母、5个数字和序列版本号后缀的访问编号(图1)。每当序列发生变化时,序列版本号就会修改。序列以ASN.1格式生成并存储,并以GBFF格式在线显示,这两种格式通常由GenBank使用。
图1 GenBase数据模型
数据提交和验证
通用序列
GenBase构建了一个用户友好、同时支持中英文的通用序列在线提交系统,包含九个部分,即提交者、出版信息、测序技术、序列、集合或批次、类别、元信息、特征和结果预览(图2)。该提交系统支持全面的实时验证。
图2 GenBase整体架构
在“序列”阶段(步骤4),GenBase会对用户上传的序列文件进行在线校验,包括序列格式、序列内容、物种名称、分子类型和遗传密码。在“元信息”阶段(步骤7),GenBase基于Excel格式收集序列相关的57个元数据信息,并对其进行实时校验。例如,对采样地、细胞器/位置等字段进行受控词汇表校验,对收集日期和经纬度进行特定格式校验。在“特征”阶段(步骤8),GenBase支持三种格式的注释文件:5列GenBank特征表、GFF3和Excel格式。用户可选择其中一种格式进行序列注释。GenBase会对用户提交的注释文件进行实时验证。例如,验证注释文件中的所有序列ID是否与核酸序列文件中的ID完全匹配,坐标是否为整数,基因注释是否符合INSDC规范。目前,已有768个特征及其相应的注释信息可用于序列注释。用户在“结果预览”页面确认所有信息后,GenBase使用table2asn(https://www.ncbi.nlm.nih.gov/genbank/table2asn/)对提交的序列进行最终检查,并生成高质量的序列文件(例如:GBFF和SQN文件)。
SARS-CoV-2序列
为了提高SARS-CoV-2序列的汇交效率,GenBase设计了一个专用的SARS-CoV-2序列提交模块。该模块的提交过程与通用序列类似,但集成了VADR程序,可实现对SARS-CoV-2序列进行自动注释。此外,GenBase为SARS-CoV-2提供了专用的元数据Excel文件格式,确保与INSDC和全球共享所有流感数据倡议(Global Initiative on Sharing All Influenza Data, GISAID)的兼容性。
统计信息
自2023年3月24日正式上线以来,GenBase实现了数据量的快速增长(图3A和B)。截至2024年4月16日,GenBase已整合并更新了来自GenBank的270,606,796条核酸序列和305,810,135条蛋白质序列(图3C)。截至2024年4月16日,GenBase已接收用户提交的67,399条核酸序列和681,930条蛋白质序列,涵盖393个物种(图3C)。提交的数据中,62,988条核酸序列(93%)和613,351条注释蛋白质序列(90%)已释放。值得注意的是,在54,884条提交的具有标准化注释的SARS-CoV-2基因组序列中,已有52,147条被发布。
图3 GenBase数据统计(截至2024年4月16日)
检索和下载
在GenBase中,用户可以使用具有31个搜索字段的高级搜索功能进行检索,同时,高级搜索设有保留历史记录功能,便于查看历史检索信息。用户可以使用物种、数据来源、数据类型等过滤条件细化搜索结果,以及使用不同的排序选项(例如,访问编号、修改日期、生物体和序列长度)进行结果排序。GenBase提供四种数据显示格式,并支持批量下载,以满足不同的使用需求。为了便于批量下载FASTA文件,开发了REST API(如https://ngdc.cncb.ac.cn/genbase/api/file/fasta?acc=C_AA001108.1)。此外,还提供了FTP站点(https://download2.cncb.ac.cn/genbase/daily/),方便用户下载GenBase每日发布的核酸和蛋白质序列。
未来发展
GenBase立足中国,服务全球,接收来自全球科研人员的数据提交,可为基因序列数据的汇交、存储、发布和共享提供一站式的Web服务。未来,GenBase将持续致力于努力推进生物领域的研究和发展,包括改进数据提交、检索和展示的Web界面,扩大服务范围,包括基因组注释,例如病毒、线粒体和叶绿体基因组,确保下游数据分析的准确性。此外,我们还将整合用户友好的在线工具,方便序列数据分析,如物种鉴定。最后,我们将通过与INSDC成员共享和交换所有公开可用的核酸序列来促进合作,从而为全球研究人员提供全面的数据资源。
审校人:
GPB青年编委周展
文章编译来源:
Bu C, Zheng X, Zhao X, Xu T, Bai X, Jia Y, et al. GenBase: A Nucleotide Sequence Database. Genomics, Proteomics & Bioinformatics https://doi.org/10.1093/gpbjnl/qzae047.
英文全文详见:
https://academic.oup.com/gpb/advance-article/doi/10.1093/gpbjnl/qzae047/7698051
作者及资助信息:
中国科学院北京基因组研究所(国家生物信息中心)(https://ngdc.cncb.ac.cn/)的卜琮凡、郑欣畅、赵学彤、徐添翼、白雪为该文共同第一作者,唐碧霞高级工程师和鲍一明研究员为该文共同通讯作者。本研究得到了中国科学院战略性先导专项、国家重点研发计划、“一带一路”国际科学组织联盟国际专题网络、中国科学院国际合作项目“国际基因组学数据共享体系研发”和国际生物多样性与健康大数据共享计划的项目支持。
GPB论文: GenBase: A Nucleotide Sequence Database