NAR | STOmicsDB:用于时空组数据共享、分析和可视化的综合数据库

2023-11-17 13:39:05 浏览数 (2)

时空组学的最新技术发展使研究人员能够在单细胞水平上检测细胞的基因表达及其空间位置,从而对生物过程产生详细的生物学见解。综合数据库可以促进时空组数据的共享并简化研究人员的数据获取过程。

2023年11月11日,由深圳国家基因库华大生命科学研究院共同研发的时空组学数据库(STOmicsDB)在国际学术期刊Nucleic Acid Research在线发表,STOmicsDB是一个用户友好的时空组学综合数据库,为时空组学研究提供“一站式”服务。

STOmicsDB是什么?

STOmicsDB是一个时空组学综合数据库,其致力于促进时空组学的数据探索和学术研究。当前版本的STOmicsDB整合了17个物种的221个时空组数据集,涵盖25种时空组技术。开发团队注释了细胞类型,并识别空间区域和基因,对这些数据集进行了细胞间相互作用分析。STOmicsDB具有用户友好的界面,可快速可视化数百万个细胞。为了进一步促进时空组不同层次数据的收录与整合,STOmicsDB建立了时空组数据归档标准,并构建了时空组数据归档系统。同时,STOmicsDB和各科研团队合作研发了多个时空组数据库专辑,共同打造时空组数据生态圈,通过标准化数据存储模式和规范的工具,为科研人员提供高效的数据可视化服务。

STOmicsDB概述

不同时空组数据库之间的特征比较(截至2023年9月20日)

截至目前,STOmicsDB已归档37个项目,数据量达202TB,并且已支撑Nature、Science、Cell在内的17篇文章发表,包括【时空组学联盟第一批生命发育时空图谱】覆盖小鼠、斑马鱼、果蝇、拟南芥四种模式生物胚胎或器官发育,【蝾螈脑再生时空图谱】【猕猴大脑皮层多组学细胞图谱】等。

* 上述图谱详情均可在如下链接获取:https://db.cngb.org/stomics/collections

STOmicsDB的主要功能

STOmicsDB由四个模块组成:资源中心模块、数据归档模块、时空组数据库专辑模块、数据集分析与可视化模块。用户可以使用STOmicsDB主页顶部的导航栏访问每个模块。

时空组学数据库STOmicsDB

https://db.cngb.cn/stomics/

资源中心模块

为了满足便捷获取资源的需求,STOmicsDB提供了一个综合性的时空组资源中心供搜索(快速搜索和高级搜索)和浏览,包括三个部分:

1)文献:包含每条记录的元数据和简要介绍;

2)样本:提供有关样本处理条件以及可视化功能的详细信息;

3)项目:对各个空间多组学研究工作的总体描述,通常涉及多个样本和数据集。

资源中心模块Publications(文献)页面

数据归档模块

面对全新的时空组数据类型,STOmicsDB率先建立时空组数据归档标准,构建了时空组数据归档系统。

用户可以通过STOmicsDB递交多种数据类型,包括原始测序数据、空间转录组矩阵、注释文件、图像信息、下游分析结果等,并提供数据可视化服务。基于统一的数据标准,加强数据可用性,从而促进数据的开放共享。

截至2023年11月,STOmicsDB的数据归档系统已接收37个项目,数据量达202TB,其中18个项目已公开访问。

数据归档模块页面

时空组数据库专辑模块

科学数据库是数据管理和科研成果的最佳实践,如何设计和研发专业的科学数据库,通过合适的方式将数据呈现给用户,让数据最大化地发挥价值,成为研究过程中的关键瓶颈。

STOmicsDB通过和各科研团队合作,共同研发了多个时空组数据库专辑,提供标准化的数据管理、高性能数据分析、数据可视化方案,已上线6个数据库专辑,并支撑高水平文章发表,如:MOSTA(小鼠器官发育时空转录组图谱)、ATRISTA(蝾螈端脑发育与再生的空间转录组图谱)、ZESTA(斑马鱼胚胎发生时空转录组图谱)、ACSTA(拟南芥细胞类型特异性时空转录组图谱)、Flysta3D(果蝇胚胎和幼虫的3D时空图谱) 和 MBA(猕猴大脑皮层多组学细胞图谱)。

时空组专辑数据库(Collection)页面

点击图片了解更多

数据集分析与可视化模块

STOmicsDB整合了时空组学不同层次数据资源,对公共数据库的6962篇文献进行数据挖掘,联合时空数据汇交系统,策划了221个时空组学数据集,收录7118份时空样本数据,为科研人员提供全面的时空组数据资源。

为充分探索时空组学数据,STOmicsDB团队构建标准化数据分析流程,包括标准化处理、降维、聚类、细胞类型注释,细胞类型特异性标记基因分析及差异基因分析、空间可变基因分析、细胞通讯分析、Hotspot空间特异性模块分析,科研人员可通过数据集模块进行数据可视化探索。

通过时空数据汇交系统和深度挖掘公共数据资源,将相互独立的公共数据资源,进行数据质控和标准化分析,整合不同层次时空组学数据,形成了一致可对比的数据集。

时空组数据集可视化示例

Analysis模块作为时空组数据的分析利器,提供了SingleR、Gene search、Compare和Stereomap四种分析工具。通过跨数据集联合分析的功能,帮助科研人员从全局角度对时空组数据进行对比,从多维度查看不同物种、不同发育阶段、不同疾病进程、不同癌症种类、正常与疾病分组的基因表达等数据差异。

分析(Analysis)工具-Gene search页面

STOmicsDB的应用案例

基于STOmicsDB中的精选数据集,用户可以使用在线分析和可视化模块进行深入的数据挖掘。以MOSTA小鼠时空组数据集(STDS0000058)为例来探索小鼠胚胎发育过程中不同基因的表达模式。Ibsp 编码的蛋白是骨基质的主要结构蛋白,由骨骼相关细胞类型合成,包括肥大软骨细胞、成骨细胞、骨细胞和破骨细胞。作者团队研究了小鼠胚胎11.5天至16.5天的时空组切片,六个阶段各重复四次,发现Ibsp在小鼠发育后14.5天至16.5天的脊柱中表达。这一结果表明,具有Ibsp功能的骨基质发育可能从小鼠发育后14.5天开始的。同样,作者团队还对肠、肝、肺和肾等多个重要器官进行了研究,揭示了Myh11、Ahsg、Adh1和Akr1b7等基因在器官发育不同阶段的表达模式。此外,作者团队还利用热点工具分析并验证了小鼠发育过程中其他局部空间特异性基因表达模式,发现了更多在器官发育不同阶段表达基因的证据。

应用案例的基因表达模式

综上所述,STOmicsDB是时空组学研究的综合资源,将为时空组学领域研究提供便利。未来,STOmicsDB还将持续更新和改进,包括数据集和文献的更新及多层次交互;开发一个全面的在线时空组学提交系统;计划整合同一物种或同一器官的精选数据集的标记基因,以生成基因网络或相关图谱等。

深圳国家基因库徐志成、王伟文博士、杨涛为本文共同第一作者。

华大生命科学研究院徐讯研究员、深圳国家基因库魏晓锋、麻凯龙为该文章共同通讯作者。

本工作得到广东省基因组科学数据中心、广东省高通量基因组测序与合成编辑重点实验室等项目资助。

//

STOmicsDB由CNGBdb团队开发及维护,使用过程中遇到任何问题或有意见建议均可通过以下方式反馈给我们:

> 使用CNGBdb官网反馈按钮:访问官网(https://db.cngb.org/)→ 点击首页右侧反馈按钮 → 填写意见和邮箱 → 提交

> 发送意见至邮箱:CNGBdb@cngb.org

参考文献

Zhicheng Xu, Weiwen Wang, Tao Yang, Ling Li, Xizheng Ma, Jing Chen, Jieyu Wang, Yan Huang, Joshua Gould, Huifang Lu, Wensi Du, Sunil Kumar Sahu, Fan Yang, Zhiyong Li, Qingjiang Hu, Cong Hua, Shoujie Hu, Yiqun Liu, Jia Cai, Lijin You, Yong Zhang, YuXiang Li, Wenjun Zeng, Ao Chen, Bo Wang, Longqi Liu, Fengzhen Chen, Kailong Ma, Xun Xu, Xiaofeng Wei, STOmicsDB: a comprehensive database for spatial transcriptomics data sharing, analysis and visualization, Nucleic Acids Research, 2023;, gkad933, https://doi.org/10.1093/nar/gkad933

0 人点赞