JCIM | 化学、生物和生物医学科学的信息学研究

2021-02-02 11:38:13 浏览数 (1)

编·译作者 | 王建民

信息学正在跨学科发展,影响着化学、生物和生物医学的多个领域。除了成熟的生物信息学学科,其他以信息学为基础的跨学科领域也在不断发展,如化学信息学和生物医学信息学。其他相关的研究领域,如药物信息学、食品信息学、表观信息学、材料信息学和神经信息学等最近才出现,并作为独立的子学科继续发展。这些学科的目标和影响通常在文献中被单独回顾。因此,确定共同点和关键差异仍然具有挑战性。研究人员结合自然科学和生命科学中的三个主要信息学学科,包括生物信息学、化学信息学和生物医学信息学进行讨论,并对相关的子学科进行简要评论。重点讨论了生物信息学、化学信息学和生物医学信息学的定义、历史背景、实际影响、主要异同,并对生物信息学、化学信息学和生物医学信息学的传播和教学进行了评价。

1

介绍

牛津词典将信息学定义为 "研究存储和获取信息的过程"。剑桥词典将信息学定义为 "研究存储、处理和传播信息的自然和人工系统的结构、行为和相互作用的学科"。毫无疑问,计算机在存储、处理和传播信息方面发挥了重要作用。据此,牛津词典将信息定义为计算机中 "由计算机处理、存储或传输的数据"。因此,计算机通过归纳学习将数据或事实迅速转化为信息,将信息转化为知识的关键性作用不断增强。

化学、生物学和生物医学科学依赖于以多种方式收集的数据。高通量合成和测试、自动化、机器人小型化测序、蛋白质组学、糖组学、脂质组学和其他"-组学 "方法等技术的进步是信息学关于产生的海量数据的主要驱动力的例子。随着横跨许多领域的 "大数据 "的出现,信息量及其复杂性呈指数级增长,伴随着对信息学在计算能力和信息网络基础设施方面的进步的要求越来越高,以精确地存储、处理、传播、建模、分析和预测这些信息。例如,从2006年到2018年,DrugBank数据库中可用的在研药物相关数据增加了近300%,药物间相互作用数据增加了近600%,单核苷酸多态性(SNP)相关的药物效应数量增加了3000%以上。化学、生物学、医学与信息学之间的密切关系,促使信息学与其他领域对接的特定研究学科的发展。

从历史上看,生物信息学作为生命科学中的一门信息学学科是在20世纪60年代发展起来的,这是20世纪50年代就已经开始在医疗卫生领域使用信息学的必然结.此外,化学信息(chemoinformatics)也起源于20世纪60年代,早在这些名词被创造出来之前,但发展的规模较小。生物信息学是和生物医学信息学一起发展起来的,它们有着共同的根基。目前还有其他与信息学相关的学科在不断发展,如材料信息学、高分子信息学、食品信息学,以及其他的子学科如表观信息学等,都可以合理化为三大领域的子学科。这些领域之间的界限相当不固定,并没有严格界定。这是因为这些学科具有很强的交叉学科领域,并且不断发展。例如,在药物发现中,化学信息学、生物信息学和生物医学信息学相遇,并经常共享类似的信息学方法。这些领域的一个特点是,它们的方法论基础部分重叠,但又有区别。因此,能在文献中找到诸如生物/化学信息学、生物化学信息学或化学-生物信息学等术语,以反映这些内在的关系。

2

信息学相关的研究领域

信息学对化学和生物学的影响

随着时间的推移,信息学相关学科的科学出版物数量显著增加,如图3所示,反映了这些领域的发展。今天,如果不使用计算机和专门的软件工具,进一步发展化学和生物学几乎变得不可能。实验文件中越来越多地使用计算概念的主要原因之一是,越来越多的数据和信息必须在数据库中被访问,并为研究提供检索。现在,信息学对于存储、处理、分析和传播生物学、化学等领域的异构数据至关重要。此外,来自信息学的算法和数据结构对于推导预测模型是必不可少的,这些模型往往是对实验计划的补充和指导。化学和生物特性的预测以及分子系统的模拟已经成为基础和应用研究中不可或缺的组成部分。例如,化学领域,合成反应的规划和设计为有机合成增加了一个新的维度;生物学领域,生理过程及其动力学的数值模拟进一步扩展了对实验的认识,并产生了新的可检验的假设。此外,在这两个领域,计算可视化方法已成为表示和表征日益复杂的化学和生物空间,如超大型化合物阵列或表达谱构成的空间所不可缺少的。此外,如果没有信息学的图像分析方法,现代的高含量筛选活动、表型分析或基于图像的医学诊断将是不可行的。因此,正如在下一节中进一步讨论的那样,对受过训练的生物信息学和化学信息学专家的需求正在稳步增加。特别是,在医院、大学、公共或私人研究机构和公司中找到受过生物信息学培训的科学家是很常见的。同样,学术界和工业界对具有信息学专门知识的科学家的需求也在增加,尽管近年来化学信息学教育不断增长,但规模仍然较小。

定义

对于不断发展的信息学相关学科和子学科,提出了各种形式的定义.

科学传播与教育

这些以信息学为导向的学科的发展也引发了对每个领域的同行评审科学期刊的引进和整合。表2总结了一些在标题中包含 "信息学 "和 "信息 "等相关术语的同行评审期刊的例子。值得注意的是,化学、生物学和生物医学科学领域的计算期刊还有很多(除此之外,还有一些多学科期刊也发表了专注于化学信息学、生物信息学和生物医学信息学的研究)。表2中具有代表性的期刊以及出版时期和出版者,进一步强调了这些单个学科的发展和巩固。虽然科学期刊和教科书反映了这些领域的发展,但已经建立的本科和研究生阶段的教育计划中的正式课程也反映了这些领域的发展,如表3所总结。值得注意的是,表3包括了所提供的数字的来源信息,旨在表明生物信息学期刊、教科书和课程的数量超过了化学信息学和生物医学信息学。这至少在一定程度上是由于医学课程到目前为止,灵活扩展到理论的机会有限。此外,化学系在实施信息学教育方面传统上是保守的。事实上,我们今天所认知的化学信息学学科,大部分都是源于制药行业而非学术环境,这也解释了化学信息学对药物发现的强烈导向。

化学信息学与生物信息学之间的异同

不同的信息学驱动学科的核心是要处理和分析的数据类型。不同类型的数据需要开发特殊的表示形式,以处理,处理和分析特定于域的数据。

每个学科及其子学科所代表的数据和对象的复杂性和大小会转化为组织,归档,处理和分析数据以及知识提取的部分共享且部分独特的挑战。药物发现中,金属信息学经常被忽略在化学信息学中,这是因为精确计算类似药物的特性非常复杂。与化学信息学相比,生物信息学处理的信息量要大得多。对于生物医学信息学来说,由于大多数临床数据无法在公共领域获得,因此估计更具挑战性。过去几年中,生物数据的爆炸式增长促使需要在生物信息学中使用本体,以解决生物数据库之间的语义和组织差异。另一方面,化学信息学面临的挑战是如何处理数量众多的小分子,这些小分子分布在类似药物的化学空间,并管理相关的结构-财产关系。生物信息学中,主要的信息来源包括-组学技术,而在化学信息学中,主要的数据来源是高通量合成和测试,以及按需或虚拟库的枚举。相反,在生物医学信息学中,信息的主要来源是信号处理。

此外,每个学科都根据特定需求解决独特的问题。例如,生物信息学涉及序列分析,建立和维护生物分子数据库,进行蛋白质构建比较以及预测分子进化方面。相比之下,化学信息学专注于开发小分子化学文库,多样性分析,包括生物特性预测在内的特性预测以及结构生成。生物信息学更多地依赖于细胞数据,而化学信息学则基于体外数据,尤其是在药物发现应用中。与之形成鲜明对比的是,生物医学信息学专注于在临床水平上分析与健康相关的数据。

但是,不同的信息学领域也存在问题和挑战,例如,存储,组织和管理不同类型的数据的能力。毫无疑问,需要处理越来越多的越来越多样化和复杂的数据和信息以提取新知识。因此,所有学科共同的一个因素是需要处理“大数据”。随着信息学的并行发展,计算工具和资源(商业和开源)的数量和质量正在增加。不同的信息学学科也可以共享方法论。最近的无国界全面审查QSAR中对此进行了讨论。这项工作强调,最初建立的用于建立药物化学和物理有机化学中的定量构效关系(QSAR)的方法已扩展到纳米技术,材料科学,生物材料,合成计划和临床信息学。以此类推,至少对于某些任务,有可能得出“无国界的信息学”的概括。

如上所述,所有信息学相关学科的共同目标是将信息转化为知识。许多现实世界中的问题需要跨学科的方法以及两个或多个研究领域的合作。突出的例子是药物发现和开发项目,这些项目经常涉及生物信息学,生物医学信息学和化学信息学方法。

3

结论

本文研究人员分析了信息学在生物学,化学和医学领域的影响,从而导致了新的基于信息学的学科的出现。重点介绍了三个主要学科,包括生物信息学,化学信息学和生物医学信息学,它们在概念和方法上具有相似性并具有鲜明的特征。这些学科最初应运而生,并进一步发展为解决生物学,化学和生物医学方面的问题。但是,生命科学中复杂问题的多学科性质通常需要适应和应用不同的信息学方法。在某些情况下,生物信息学,化学信息学和生物医学信息学之间的常见概念重叠是,它们是由数据和主要是归纳学习机制驱动的。此外,所有学科都依赖数据库,并面临数据收集,标准化,集成,挖掘,可视化和属性预测的挑战。

每个与信息学相关的学科的主要区别特征包括主要目标和研究主题。例如,一个主要的区别特征是所使用的数据表示类型。生物信息学采用三维结构的序列和坐标,而化学信息学则经常依靠分子指纹和数字描述符。相比之下,生物医学信息学使用以不同格式编码的临床或非临床模式。

每个与信息学相关的学科都使用唯一表示法分析不同类型的数据。研究人员预计,随着这些学科的进一步发展,各种子学科将继续出现,重点放在更专业的数据上(例如,食用化学品,聚合物或天然产物)。但是,由于与信息学相关的学科通常同时用于解决多学科问题,因此还期望它们将继续处理连续的数据和问题,这也需要这些工作的协调和部分整合。例如,将化学信息学纳入更广泛的化学信息科学领域,将其主要关注点从小分子扩展到化学数据和任何来源的化学信息。同样,关于与信息学有关的不同学科的科学家和从业人员的培训和专业化,现在越来越多地被涵盖在“数据科学”的跨学科范围之内。显然,在融合和培养特定学科特征之间寻求平衡是基于信息学的学科前进的挑战之一。

参考资料

Informatics for Chemistry, Biology, and Biomedical Sciences. Edgar López-López, Jürgen Bajorath, and José L. Medina-Franco. Journal of Chemical Information and Modeling Article ASAP.

DOI: 10.1021/acs.jcim.0c01301

0 人点赞