成功案例 | 深圳国家基因库提升基因组学数据存储和管理能力

2022-04-01 17:07:19 浏览数 (1)

在运维人员没有增加,而使用开源软件对技术人员的要求又比较高的情况下,DDN提供的专业L3级技术支持服务对于确保大型存储系统的长期、稳定、安全的运行发挥了重要作用。

国家基因库

生物信息数据库主任

曾文君

➢ 深圳国家基因库

由国家四部委批复建设,深圳华大生命科学研究院(原深圳华大基因研究院)承建的深圳国家基因库(简称“国家基因库”)2016 年建成并投入使用,是服务于国家战略的重大科技基础设施之一。

目前,国家基因库已初步建成覆盖生命全周期的“三库两平台”业务结构和功能。“三库“之一的生物信息数据库是基因数据存储、分析的一体化平台,数十PB (Petabyte) 级存储容量和691 万亿次/秒计算能力。基于生物信息数据库搭建的国家基因库生命大数据平台(CNGBdb)可实现亿级索引、TB (Terabyte)级元数据的互联。

(图1:国家基因库“三库两平台”业务结构)

➢ 面临挑战

● 复杂多样的计算需求给存储系统带来挑战

● 数据的爆炸性增长需要高性能存储系统快速扩展

● 控制存储系统的总体拥有成本

● 使用开源软件面临管理和技术支持的挑战

➢ 解决方案

● Lustre并行文件系统

并行文件系统是后端存储软硬件与前端计算服务之间的关键环节。Lustre并行文件系统提供一个全局一致的POSIX兼容的命名空间,以大吞吐量,低延迟,高并发的方式传输数据,能最大限度地发挥并行任务的效能,其共享并行架构可以灵活扩展。它支持数百PB数据存储空间,支持TB/s级并发聚合带宽,支持上万个客户端。经过长时间的发展与完善,Lustre在各个领域被广泛采用,尤其是在科研领域与超算中心,其系统使用率超过70%。

国家基因库选用了社区版的Lustre文件系统,后端综合采用ZFS或Ldiskfs作为本地文件系统。基于ZFS的Lustre文件系统对存储硬件的要求较少,可采用JBOD(Just a Bunch of Disks)硬件,降低了系统对于厂商和硬件的依赖程度,有利于成本控制。基于Ldiskfs的Lustre文件系统技术栈成熟,性能调优完善,适合性能要求更高的场景。这两种存储系统构建方式分别应对两类场景,为持续增长的数据量和不断提升的性能需求提供了性能优秀、容量高度可扩展、成本可控的综合解决方案。

基因组学数据具有很高的价值,如何保障数据存储的安全性、可靠性和完整性是生物信息数据存储系统极为最关键的问题之一。基于Ldiskfs的Lustre文件系统利用了独立磁盘冗余阵列等技术手段保障了数据的安全可靠。而基于ZFS的Lustre文件系统则利用了ZFS的固有特征和安全机制,最大限度地减少了数据损坏的风险。ZFS基于事务(Transaction)的数据写入方式,保障了写入数据的完整性和有效性;ZFS的写时复制(Copy on Write)机制,保证新数据写入新的存储块中,而不会覆盖原有数据,这就保证了数据写入时即使发生断电等偶然事件,原数据依然完整;而且在系统重启之后,不需要运行 fsck 来检查和修复文件系统。ZFS文件系统在写入数据时,还会计算数据的校验码存储到数据的元数据中,在数据读出时,会通过对比校验码来检查数据的完整性,并进行纠错恢复。

● DDN L3 技术服务

成熟、专业的技术支持能力和完善、综合的技术支持流程,对于确保大型存储系统的长期、稳定、安全的运行具有举足轻重的作用。面向国家基因库广泛采用社区版Lustre文件系统,DDN公司为此提供了专业的L3级的技术支持服务。在L3服务模式下,当国家基因库的工程师遇到无法解决的问题时,DDN的技术支持工程师给予指导建议,具体操作仍然由国家基因库的工程师来进行,因此DDN的技术工程师无需接触系统和数据,确保了国家基因库系统和数据的安全可控。

DDN为国家基因库专门指定了多名服务工程师,针对各类问题的紧急级别制定了相应的处理流程,确保技术支持的需求能得到及时而高质量的响应。DDN公司向国家基因库提供了软硬件选型的建议和意见,协助规范网络连接类型,根据需求提供各版本的Lustre软件并提供支持。针对国家基因库的特殊应用需求,DDN的工程师还围绕Lustre文件系统定制开发了一个软件工具,该工具采用行业定制的特殊压缩算法,实现了在数据归档时同时进行数据压缩,具有数据访问透明度高、压缩比率高等优点。“我们能看到Lustre文件系统越来越稳定、功能越来越丰富” 国家基因库高性能计算系统工程师李焱表示,他的感受也代表了国家基因库对DDN L3技术支持服务的一种肯定。

我们能看到Lustre文件系统越来越稳定、功能越来越丰富。

——国家基因库高性能计算系统工程师李焱

➢ 成果

● 为时空基因组研究提供有力支持

时空组学技术是近年来的研究热点,它曾被《自然-方法》(Nature Methods)杂志列为2020年度技术。深圳华大生命科学研究院作为时空组学技术的主要推动者之一,自主研发了空间组学新技术 DNB Stereomics,一种用于解析基因空间表达分析的高分辨率方法,可以实现基因与影像同时分析。这一技术及其配套的可视化智能分析系统,将为时空图谱、遗传变异与疾病、个体发育、物种进化等研究带来全新的认知。然而,时空组学相关应用给Lustre文件系统带来了不少压力:(a)大文件导致存储IO高,GNU工具集单线程性能出现瓶颈。(b) 大文件拆分出的小文件更多,海量小文件导致压力。面对这些问题,国家基因库的IT工程师们采用了Lustre stripe来提升性大文件的性能,并通过增加对象存储目标(Object Storgae Target, OST)数量来缓解小文件问题, 成功地缓解了Lustre压力,为空间组学新技术研发提供了强有力的支持。

● 对Lustre开源社区的贡献

深圳华大生命科学研究院早在2008年就首次采用Lustre文件系统为生产环境构建了存储系统。由深圳华大生命科学研究院负责承建的国家基因库也历经了Lustre 2.1、2.3、2.5、2.10和2.12等多个开源版本。作为世界领先的国家级综合性基因库,在生产环境中使用Lustre文件系统本身就是对开源社区发展的一种支持和贡献。在使用过程中,国家基因库的IT工程师们如李焱、杨力平等勇于探索和尝试Lustre各种先进功能,提出了大量改进建议和意见,对开源社区的发展起到了积极的推动作用。另外,国家基因库积极参与和支持中国Lustre开源社区的各项工作与活动,多次在中国Lustre用户峰会(China Lustre User Group,CLUG)上分享自己的实践经验,回馈社区。

展 望

“由于测序成本越来越便宜,未来计算和存储成本可能是测序成本的数倍。国家基因库对存储的需求非常巨大,届时需要更多软硬件和相关人才的投入。”国家基因库生物信息数据库主任曾文君在谈到未来的发展时表示“如果运维人员没有增加,而使用开源软件对技术人员的要求又比较高,未来,国家基因库会考虑开源软件与商业软件相结合的模式。”国家基因库希望与DDN继续合作,例如,DDN基于Lustre 文件系统开发的商业版并行文件系统EXAScaler。EXAScaler 集成 Lustre 作为其核心,并添加了所有必要的特性,将文件系统提升到任务关键型和商用HPC级别部署。EXAScaler 在增强小文件访问性能,数据生命周期管理方面(如分层管理、数据迁移与同步)提供更优秀、更完善的功能。期待新的软件模式更充分地释放国家基因库的潜能,更好地支撑生命科学研究与生物产业的创新发展。

· 完整版成功案例下载,请在浏览器中复制以下链接:

http://ddnstorage.mikecrm.com/LpX5JvY

0 人点赞