摘要
过去的十年中,深度学习(deeplearning, DL)方法已经非常成功并广泛用于开发几乎每个领域的人工智能(AI)。与传统的机器学习(machine learning, ML)算法相比,DL方法在小分子药物发现和开发方面还有很长的路要走。对于DL研究的推广和应用,例如小分子药物研究和开发,还有很多工作要做。本综述主要讨论了监督学习和非监督学习等几种最强大和主流的体系结构,包括卷积神经网络(CNN)、递归神经网络(RNN)和深度自动编码器网络(DAENs),总结了小分子药物设计中的大部分代表性应用;并简要介绍了如何在这些应用程序中使用DL方法。还强调了关于DL方法利弊的讨论以及我们需要解决的主要挑战。
一、背景
与深蓝相比,IBM开发的chessplaying计算机第一次在20世纪90年代击败世界冠军,AlphaGo集成了一种被称为卷积神经网络(CNN)的先进创新架构,该架构是在神经网络(NN)中的深度学习(DL)算法最成功的实现之一。受益于大数据分析的兴起以及大规模计算能力的发展,特别是图形处理单元(GPU)计算的发展,使用深度学习体系结构已成为应对AI挑战的首要尝试技术。
深度学习被称为人工神经网络(ANN)的传统机器学习(ML)算法的重新命名,其是为了模仿人类中枢神经系统(CNS)而由连接的人造神经元组成的网络系统。早期,人工神经网络不是“深”而是“浅”的;这些ANN由一个输入层,一个输出层和一个隐藏层组成。输入层直接通过将特征放入每个节点来接收输入数据。然后,隐层中的每个节点接收一个加权线性组合作为来自输入层中所有单元的输入,然后使用激活函数执行非线性变换。输出层做了与隐藏层类似的工作。它从隐藏层接收信号,然后使用激活函数产生结果。在这个过程之后的数据流中,那些ANN可以被认为是前馈神经网络(FNN)。这些Bshallow ^ NNs系统的优化是通过一个过程实现的,该过程首先使用反向传播(BP)算法计算输出结果与实际值之间的误差,然后修改内部可调参数(权重)以通过梯度下降 。通用逼近定理表明,浅层神经网络,只有一个隐含层包含有限数量的节点,可以近似任何连续函数。当可调节参数的数量时,具有这种体系结构的模型可能容易过度拟合。通过仔细培训浅层网络,特别是在应用正则化时,过度拟合可以最小化。尽管如此,可以设计更多的隐藏层来识别来自输入数据的更多抽象模式,其中较低层学习基本模式并且上层学习较高层模式。但是,增加更多的隐藏层和节点可以大大增加计算任务。而那些隐含层数较多的多层神经网络可能会遇到梯度消失问题,导致改变权重以优化模型训练的难度。为了克服这些情况,在DL模型的开发中,GPU加速通常被应用于极大地提高计算能力。同时,对网络架构进行了修改以优化权重的初始化和更新,并采用不同的传递函数和正则化技术来使过度拟合最小化。这些体系结构的例子包括深度置信网络(DBN),CNN和递归神经网络(RNN)。而且,在大数据时代,与其他传统的浅层ML算法相比,DL具有主要优势,如线性回归,逻辑回归,支持向量机(SVM),朴素贝叶斯方法,决策树或随机森林算法。与DL算法相比,这些算法在学习能力上也被认为是很浅的。这些传统算法难以处理原始形式的自然数据,因此必须提取手工设计的特征来表示输入数据,这些数据是至关重要的,但往往难以处理,并且需要输入数据特定领域的专业知识。另一方面,深度学习算法属于表示学习类,它具有处理原始数据的能力,并能够自动提取有用的特征作为进一步检测或分类所需的表示。
现代计算机辅助小分子药物发现和开发中,ML方法,特别是传统学习方法被广泛用于构建预测模型,如定量结构-活性关系(QSAR)模型和定量结构-性质关系(QSPR)模型 等等。 近年来,新的DL技术已被用于药物发现和开发,为制药科学的计算决策打开了新的大门。 DL技术的成功得益于DL算法的快速发展以及高性能计算技术的发展,以及化学数据库中化学信息的爆炸。
本文的目的是帮助读者深入了解计算化学和化学信息学领域的DL应用,以便他们可以在他们的研究中使用DL。因此,本文主要总结了如何构建这些DL应用程序,深度神经网络(DNN)模型的体系结构以及它们采用的输入功能。还将DL与传统的ML算法进行了比较,并讨论了DL的未来视角。尽管数学模型的预测性能非常重要,但由于以下原因,对这些DL应用程序的验证和并行比较在本评价中未被强调。一个是准确度和精度因数据集、模型架构、超参数配置和评估方法而异。
二、深度学习的应用
1.深度学习的发展
DL的起源可以追溯到Warren McCulloch和Walter Pitts在20世纪40年代提出的神经网络(NN)模型,以及Frank Rosenblatt发明的感知器,两者都被设计用来模拟人类神经元的兴奋通过类比NN中的二进制逻辑门的激活来实现大脑。早期人工神经网络的主要思想是定义一个算法来学习权重向量,它被用作特征值的系数。然后,使用神经元内部的激活函数,例如Heaviside Step Function或Sigmoid Function来确定神经元是否被激活。后来,人工神经网络建模的BP算法的发展带来了这些基于统计的ML方法监督学习的繁荣。DL的实际框架由Geoffrey Hinton,Yann LeCun和其他科学家在2006年提出,它不仅在学术界,而且在工业界开启了DL和新AI的革命浪潮。他们开发了一种多层神经网络的新颖架构,将特征学习引入到DL中,以抽象出数据的要素。通过特征学习,DL方法可以自动从原始格式的输入数据中提取特征,然后转换并将其分布到更抽象的层次。与此同时,并行计算技术和计算硬件的快速发展,特别是针对DL研究而设计的新兴专用集成电路,如张量处理单元(TPU)技术,确保了DNN的巨大计算工作量可能不再是一个无法访问的域名。
2.用于小分子药物发现的通用深度学习体系结构
有不同类型的DL体系结构,每种体系结构都可以根据训练数据的结构以不同的方式识别模式并提取高级特征。本文主要讨论了主流架构,包括CNN,RNN和生成网络。本文简要介绍了它们在DL应用中如何用于小分子药物设计和开发。
2.1卷积神经网络(CNN)
CNN是DL中最具代表性的体系结构之一,在图像和语音识别以及自然语言处理(NLP)等许多领域被广泛采用。当处理视觉信号时,局部神经元模式负责感知感觉空间中的特定区域,并且CNN通过在卷积层中开发两个主要字符来模拟其特征:稀疏连接和共享权重。 在卷积层k中,有两个特征映射(A和B),其中任何一个具有相同的权重。 隐含层k的每个特征映射中的每个像素来自权重矩阵和层k-1的局部像素簇的卷积。
此外,通过汇集层和通过整合用于正则化的丢失技术实现的提高使得CNN更加复杂。对于那些复杂的信号过程,其中输入数据具有巨大数量的输入特征和极其抽象的连接,CNN的采用可以通过直接将输入数据导入模型来避免特征选择的头痛。在CNN中通常使用三种类型的层:卷积层、共用层和完整连接层。仔细选择和排列这些层以形成多层网络。根据输入数据的形式,可以考虑不同形式的图层。
2.2递归神经网络(RNN)
RNN是DL中另一种代表性的体系结构。 RNN专门针对处理序列数据而被广泛使用,并在NLP中取得了巨大的成功。RNN与前馈架构之后的常规FNN不同。在常规FNN中,同一层中的隐藏节点之间没有连接,但仅在相邻层中的节点之间有连接。FNN的主要缺点之一是它们不能处理序列问题,因为输出不仅与当前的输入信息有关,而且与先前的信息有关。但是,RNN可以通过以下方式处理顺序信息:(1)将有向周期引入其网络;(2)将相邻的隐藏节点相互联系起来;(3)从先前的时间片捕获计算的信息;(4)将其存储用于后续程序。从输入单元到输出单元的单向数据流流经过每个连续的隐藏单元。 St表示步骤t的过渡状态,表示网络中的纪念单元,其包含从序列中先前数据提取的所有信息。该步骤(t)中的输出单元的输出仅与该时刻(St)的过渡状态相关。在RNN中,每个具有有向周期的隐层可以展开并作为传统的NN在每个相同层共享相同的权重矩阵U,V,W进行处理。
有很多RNN的变体,最常见的是门控周期性递归神经网络(GRURNN),长期短期记忆(LSTM)网络和发条RNN(CW-RNN)。在这些RNN体系结构中,LSTM是目前NLP中最受欢迎和广泛使用的一种。在NLP中,LSTM通常结合词嵌入的分布式表示,通过检查语句和词性标注来实现。 使用专门的函数来计算隐藏层中的转换状态,与常规RNN相比,LSTM网络在捕获长期依赖性方面功能强大。另外,LSTM在图像检索领域也与CNN一样流行且成功,并且通常与CNN结合用于AI中的图像描述的自动生成。
2.3生成深度神经网络(DNNs)
DNNs不仅用于处理监督学习中的标记数据,而且还用于分析非监督学习中的非标记数据。深度自动编码器网络(DEAN)是无监督学习中最常见的生成网络架构之一。DEAN由编码器和解码器组成,它们是两个对称的DBN,由希尔顿等人提出的DNN。这两个DBN通常由几个受限玻尔兹曼机器(RBM)组成,这是一个包含一个可见层和一个不可见层的双向网络。在RBM中,来自不同层的每两个节点之间存在对称连接,并且来自同一层的节点之间没有连接。一个简单的自动编码器的功能可以被视为数据的压缩,然后可以基于BP算法进行解压缩和恢复,同时信息损失最小。因此,由于减少冗余的能力,DAEN也被认为是降维方法。在这种情况下,DAEN可以专门用于特征提取,以便使用监督学习算法可以使用简化特征来训练分类模型。这种范例在DL应用的未来发展中可能是有价值的。
最近,生成对抗网络(GAN)是另一种用于无监督学习的DL算法,已经被开发并广泛用于图像合成、图像到图像转换和超分辨率。它受观察数据的潜在概率密度或概率质量函数的驱动。发生器(G)负责从随机向量中制作非真实的图像,以混淆另一个称为鉴别器(D)的网络。当D收到伪造和真实图像时,它会将它们分开。该模块中,G和D彼此竞争并同时训练,直到他们都找到最佳参数。在这些参数下,G最大化了它的分类准确性,D最大化了它的分辨准确性。网络可以通过由完全连接的GAN、卷积GAN、条件GAN、具有推理模型的GAN和对抗自动编码器(AAE)组成的多层网络来实现。
3. Regularization(正则化)与Dropout
由于过度拟合是多层DNN中的一个严重问题,因此已经开发了大量的正则化技术来最小化过度拟合问题。Dropout是通过剔除神经网络中的单位(隐藏和可见)来正则化神经网络的常用方法之一。退出的关键思想是随机向其隐藏单元添加噪声;因此,防止过度拟合并改善测试性能。那些采用丢失技术的DNN可以通过随机梯度下降(SGD)来训练,显然与常规DNN类似。同样,神经网络中的每个隐藏单元都必须学会与随机选择的其他单元样本一起工作,这使得它们更加强大,而不是依赖其他隐藏单元来纠正其错误。
贝叶斯正则化人工神经网络(BRANN)是将正则化引入NN体系结构的另一种发展。通过在模型训练的数学过程中使用岭回归,非线性回归可以转化为BRANN中的Bwell-of-statistical统计问题。通过使用BRANN,用于评估模型的交叉验证步骤也可以省略。输入特征的自动相关性确定(ARD)可以在BRANN中应用,以帮助计算几个有效的网络参数或权重,这将导致权重较小的参数被移除。 以这种方式,那些不相关或高度相关的指标被忽略,并且突出了对于建模最重要的变量。 这两个特征对于化学信息学和QSAR / QSPR研究非常有益,因为通常有太多的特征来描述一个分子。
三、用于开发深度学习应用的资源
随着DL技术的快速发展,用于开发DL框架的许多开源软件包和库可供各个开发人员和小组探讨DL-他们可能不需要开发他们自己的DL平台。大多数这些软件包都有完善的GPU计算内置代码,并附有详细的教程和注释。
除了包和工具之外,数据集,尤其是基准数据集,是构建模型的另一个重要部分。DL的发展受益于CNN在计算机视觉方面的突破,主要是基准数据集ImageNet和年度竞争ImageNet大规模视觉识别挑战(ILSVRC)所促成的。在药物开发领域,使用Merck活性数据集的Merck Kaggle挑战以及使用其基准数据集的Tox21挑战极大地加速了ML方法在QSAR / QSPR研究中的应用。与传统ML方法相比,DL方法具有处理大数据的能力。因此,对于DL建模的大型标准化数据集的需求是非常迫切的。分子ML研究引入了他们的大型基准包MoleculeNet。 MoleculeNet数据集整合了多个公共分子数据集,涵盖量子力学数据,物理化学数据,生物物理数据和生理数据。此外,所有数据集,建立的模型评估指标以及计算分子特征的实现都与DL建模工具包一起打包在他们的称为DeepChem的Python库中。此外,Lenselink等人,发布了由ChEMBL数据库生成的基准生物活性数据集,这可能是开发DL模型的另一种标准化数据集。
四、深度学习在小分子药物设计中的应用
计算化学的三个主要领域已经报道了DL模型预测药物-靶标相互作用,产生新的分子,并预测转化研究的吸收、分布、代谢、排泄和毒性。像其他ML算法一样,DL在构建QSAR / QSPR模型中经历越来越多的成功应用。早在2012年,希尔顿组利用他们的DL模型赢得了默克Kaggle的挑战,开创了使用DL方法预测化合物活性和性质的应用的新篇章。在接下来的一年中,来自希尔顿集团和谷歌公司发表了多篇关于基于DL的QSAR建模的论文。他们使用各种超参数的DNN尝试了多个任务和不同功能,并开始使用GPU进行基准测试。 2014年,使用成对输入神经网络报告了他们的DIT预测模型,提供了将靶标添加到模型中的新理念。为了模拟化合物和蛋白质之间的相互作用,将分开的权重组分配给化合物特征和蛋白质特征,然后分别馈送到第一隐藏层。2015年,Wallach等人推出了他们的DL模型AtomNet,以预测选择用于药物发现的活性化合物的结合亲和力。据称AtomNet是第一个采用CNN进行小分子结合亲和力预测的DL模型。在AtomNet中,使用了结合配体和靶标结构信息的新方法。然而,AtomNet需要配体和靶蛋白的三维结构,这些三维结构包含参与靶标结合位点相互作用的每个原子的位置。最近,Wan和Zeng发表了他们使用DL方法进行复合蛋白质相互作用预测的新模型,他们在NLP研究中采用了一种被广泛使用的称为特征嵌入的技术。在他们的模型中,配体信息(分子指纹)和蛋白质序列都嵌入到多维载体中。在嵌入过程之后,构建了由整流线性单元(ReLU)组成的一系列完全连接的层。
除了预测靶标选择性和DTI之外,已经采用DL方法来预测ADMET性质。 2013年,Lusci等人报道了他们使用DL架构预测水溶性的模型。他们将小分子分割成原子和键,通过对这些原子进行排序并使用它们相应的键将它们连接起来,从而构建一个有向图,然后将收缩图放入RNN模型中。2015年,Shin等人发表了他们使用DL方法开发的模型来预测小分子的吸收潜力。将来自人结肠直肠癌细胞系(Caco-2)的663个小分子的体外通透性数据用作训练数据,并且使用基于它们2D结构的CDK工具箱计算209个分子描述符。如果不使用任何专门的体系结构,则会生成四层完全连接的神经网络,以提取和转换输入信息并最终分类输入化合物的吸收电位。DL方法在预测由NIH,EPA和FDA发起的Tox21数据挑战中的小分子毒性方面也是有效的。 Mayr及其同事在2015年报告了他们基于DL的毒性预测模型。在他们的研究中对多种类型的分子特征(如不同的指纹和化学特性)进行了测试和比较。其模型中采用了四万个输入特征和大量隐藏层。他们的基于DL模型的平均性能在多任务测试中表现良好,表明总体而言,DL算法在训练数据、参数和任务方面非常稳健。最近,佩雷拉等人提出了基于DL的协议进行基于对接的虚拟协议。在他们的模型中,他们使用配体信息和来自对接的互动氨基酸来优化对接结果。输入数据是使用嵌入技术产生的复合蛋白化合物的分布式表示,接着是三层卷积神经网络。
药物发现领域,许多较早的DL尝试一直在使用人工设计的特征,如分子描述符和指纹。在这种情况下,DL作为表示学习的特性,使得DL能够直接从数据中自动设计分子特征,这在很大程度上是缺失的。然而,这可能是区分DNN和传统ML算法的最重要的方面。很高兴看到最近的出版物已经证明直接学习Bundescessed化学数据也可能是一个可行的策略。Yao和Parkhill发表了一篇关于卷积神经网络Bundelcessed化学数据的着作。值得注意的是,他们使用3D小分子的电子密度,而不是2D分子指纹或物理化学性质,作为输入数据并开发了一个三维卷积神经网络模型来预测碳氢化合物的Kohn-Sham动能。 Bjerrum报告了他使用基于LSTM细胞的NN生成DL模型的研究。他研究的创新部分是他使用SMILES枚举作为模型中的原始输入数据。Goh等人的另一项研究。试图使用2D分子绘制分子图像作为CNN模型的输入数据来预测化学性质。他们还将它们的方法与使用传统分子特征作为输入特征的CNN模型进行了比较,结果表明使用基于图像的输入特征构建的模型稍微超过了常规分子特征。
最近,随着无监督学习和生成神经网络的发展,使用DL算法的这些生成模型的应用已经取得了进展。卡杜林等人开发了用于筛选化合物的七层生成AAE模型。与使用QSAR模型的常规筛选方法不同,它们的模型从6252个训练分子的输入分子指纹中提取特征,并使用非监督生成模型为潜在选择性化合物产生新的指纹矢量。然后,他们筛选出这些选定的输出载体,对照来自PubChem的7200万种化合物的大型文库,并预测了320种化合物作为潜在化合物,其中69种在实验上被确定为真正的命中。除了使用自动编码器选择新化合物之外,还有几次尝试使用其他深层生成网络来产生新化合物。Segler等人介绍了使用RNNs设计新型聚焦库的生成模型,实现了完成从头药物设计循环的满意性能。Olivecrona等人为从头库设计开发了类似的方法,并在该方法中增加了强化学习(RL)的新颖性。吉马赖斯等采用GANs以及RL建立一个生成模型,利用SMILES数据生成不同类型的分子,给出了使用最先进的无监督DL方法设计新型化合物的新思路。
五、讨论与展望
深度学习VS传统机器学习
作为最先进的ML算法,DL算法受到与其他浅层ML算法相比的挑战。温克勒等人最近报道了他们的贝叶斯正则化神经网络(BNN)模型与Ma等人生成的DL模型之间的比较。使用来自Merck的相同KAGGLE数据集。他们的研究表明如果在QSAR或QSPR建模中提供了足够的训练数据,那么具有单个隐藏层的浅层NN可以执行以及具有更多隐藏层的DNN。 Capuzzi等人也得出了类似的结论。从使用Tox21数据进行比较,看起来这些结果与通用逼近定理一致,推断出DL算法可能没有优于正则浅NN的优势。这些结果可能会推翻我们的观点,即新颖的DL应该比传统的浅层ML方法更好。实际上,对于具有最终分类或回归目的的监督学习,DL和浅显学习都有自己的位置。
Schmidhuber等人研究表明大多数传统ML方法的主要缺陷是它们对模拟复杂近似函数的能力有限,并推广到一个看不见的实例。神经网络在QSAR / QSPR建模方面取得了进展,通用逼近定理证明了其在逼近方面的先进性。给定足够多样化的数据,浅层神经网络在大多数情况下可以很好地推广到新数据。给定相同的描述符和训练数据,两种类型的NN都会生成相似的质量模型。但是,深度神经网络可以生成复杂的描述符抽象。如前所述,将DL方法与浅层神经网络区分开来的本质特征不仅是对网络深度的重视,而且还强调对特征学习的重视。与需要手工选择特征的浅层神经网络相比,DL方法可以通过构建非线性网络模型来提取大数据的潜在信息,从而从数据中学习特征。在早期的QSAR / QSPR研究中,描述符是手动设计的,没有捕获所有影响QSAR / QSPR响应曲面的特征。因此,这些描述符值的微小变化可能会导致活动发生重大变化。这种现象被称为活动悬崖,这是QSAR建模中非常常见的问题。活动悬崖的存在与用于训练模型的活动响应面的分布高度相关,不仅涉及小分子特征学习,还涉及蛋白质目标特征提取。研究表明蛋白质特征的添加使DL模型表现更好。从DL建模的角度来看,不同的DL体系结构的选择和超参数的配置对于实现良好的性能非常重要。
另外,其他研究人员还探讨了DL方法和传统浅层ML方法之间的其他差异。 Lenselink等人发现DL方法和传统浅层ML方法在随机分割数据上表现相似;然而,当数据被同类化学系列分割时,它们有显着差异。他们认为一起发表的化合物在化学结构上通常非常相似,并且以这种方式分裂可以使验证更符合所进行的实验。
深度学习的局限与未来展望
由于特征学习的推进,在训练集应包含大量数据的前提下,DL可以达到较高的识别准确率。在数据非常有限的情况下,DL技术无法实现泛化的无偏估计,因此它们可能不如一些传统的浅层ML方法那么实用。同时,由于网络架构的复杂性,时间复杂度急剧增加,因此需要更强大的硬件设施和高级编程技能来授予DL方法的可行性和有效性。另外,尽管DL方法在实践中通常具有出色的性能,但在DL建模中调整超参数通常是棘手的。此外,很难知道有多少隐藏层和节点足以建立最佳仿真而没有针对特定DL建模的冗余。最后,DL中无监督学习的策略令人鼓舞,但仍远远落后。在现实世界的应用中,尤其是在药物发现方面,大部分数据都是非标记数据,包含大量信息。使用DL方法探索和开发新的无监督学习方法,以及从这些数据挖掘有用的信息仍然是困难的。
尽管DL方法已经成功应用于许多领域,但对于小分子药物发现中以化学为中心的建模来说,算法的适应仍然是一个问题,尤其是对于RNN和CNN,这些功能是强大的但对输入数据的格式有更高的限制。另一方面,DL系统被认为是B黑盒子系统;因此,他们很难解释,并且参与逻辑推理的权力有限。这些因素限制了DL在许多领域的应用和认可,例如临床数据分析。在这种情况下,从描述角度来看,结构-活性关系(SAR)研究的解释更为实用。然而,传统ML模型在当前化学信息学研究中常用的描述小分子(如分子指纹、物理化学性质、拓扑性质和热力学性质)的常规特征并不完全适用于DL体系结构。因此,更多可解释描述符的发展是可怕的。具体而言,由于DL方法属于表示学习,因此可以自动从原始数据中提取特征,DL建模有两个非常重要的问题:(1)如何优化DL体系结构以抽象有用特征;(2)如何解释这些特征。如上所述,最近的一些研究开始使用原始格式的化学数据来构建他们的DL模型,这表明常规特征工程可能不再是化学所必需的。
除此之外,与诸如AlphaGo之类的DL模型的大数据量相比,用于DL建模的化学信息学数据库的大小远远落后。尽管主要数据库的规模很大,如ChEMBL已达到100万的规模,但用于构建特定模型的实际可用数据仍然有限。越来越多的研究人员正在将他们的策略从化学中心建模转变为组合方法,这些方法不仅考虑小分子的化学特征,还包括目标蛋白质信息以及其他类型的数据。
总体而言,小分子药物发现将变得越来越复杂。专为复杂的模拟而设计,DL应该有能力处理这种复杂性。此外,对于DL方法,我们不应将自己限制在关于生物活性、ADMET性质或药代动力学模拟的传统预测中,但也可能系统地整合所有数据和信息,并在药物发现中达到新的AI水平。
参考资料:
Jing Y, Bian Y, Hu Z, et al. Deep Learning for Drug Design: an Artificial Intelligence Paradigm for Drug Discovery in the Big Data Era.[J]. Aaps Journal, 2018, 20(3):58.