编辑| 王天舒 指导| 闵小平
本次分享的是PLOS Computational Biology于2021年8月4日刊登的文章《Deep geometric representations for modeling effects of mutations on protein-protein binding affinity》,作者是来自分别来自清华大学的Xianggen Liu,Pengyong Li, Sen Song和伊利诺伊大学厄巴纳-香槟分校的Yunan Luo以及彭健。在这次的研究中,作者团队开发了一个名为GeoPPI的深度学习框架。基于蛋白质的三维结构,GeoPPI首先通过自监督学习方案学习编码蛋白质结构拓扑特征的几何表示,然后将这些表示用作训练梯度增强树的特征,以预测突变后蛋白质-蛋白质结合亲和力的变化。
1
介绍
蛋白质间相互作用(PPIs)是很多研究与工程中的关键问题。比如抗体与抗原之间的互相作用问题。尽管抗体疗法具有广泛的应用潜力,但是设计具有理想的亲和力的抗体来与抗原结合的工作仍然是非常具有挑战性的。在湿实验中完成亲和力增强的突变工作耗时费力,难度较大。
实验数据的不断积累为机器学习方法直接模拟突变与结合亲和力变化之间的内在关系提供了前所未有的机会,并且近年来已经取得了一些不错的成果。大多数现有的机器学习方法使用物理量作为输入特征,这需要相当长的计算时间。此外,这些输入特征大多是基于蛋白质结构中的已知规则手动设计的,这就通常限制了它们在各种蛋白质结构中的预测泛化。
在本文中,作者团队设计了一个新的深度学习框架,GeoPPI,目标是不仅能提供快速而准确的预测突变对结合亲和力的影响,而且能很好地概括未知的蛋白质结构。GeoPPI由两个部分组成,一个几何编码器和一个梯度提升树(GBT)。几何编码器是一种消息传递神经网络,通过自监督学习方案预先训练,在这个过程中何编码器学习重建扰动复合物的原始结构。这个过程的目的是学习原子之间互相结合作用的内在特征,从而用来预测亲和力的变化。梯度提升树以监督学习的方式学习从经过训练的几何编码器生成的突变几何表示到相应突变效果的映射。
作者团队在实验中发现,首先,几何编码器的自监督学习在没有任何注释标签的情况下,捕获了蛋白质结构中的一些重要特征,比如原子间的一般键长、界面区域、氨基酸的基本特征。其次,评估GeoPPI在六个基准数据集上预测突变后结合亲和力变化的能力(其中四个用于单点突变,两个用于多点突变)的结果是,GeoPPI在所有这些数据集上都展现了最先进的性能,充分体现出了其有效性和高效率。最后,作者团队收集了几个新筛选的中和抗体与SARS-CoV-2的棘突糖蛋白结合的复合物。即使GeoPPI是用低阶突变体训练并应用于高阶突变体,其也能准确预测这些复合物之间的结合亲和力变化。
2
结果
GeoPPI框架
GeoPPI是一个基于深度学习的框架,它的原理是使用蛋白质复合物的深度几何表示来模拟突变对结合亲和力的影响。它的两个组件,几何编码器的优势是提取图形特征,梯度提升树的优势是避免过拟合。几何编码器是一个图神经网络,它在相邻原子上执行神经消息传递,以更新中心原子的表示,通过自监督学习的方法,从而产生蛋白质结构的深层几何表示。然后基于深层集合表示,梯度提升树从数据中学习以预测结合亲和力的变化。
图1 GeoPPI的流程框架
自监督学习涉及到使用大量未标记数据训练模型,以获得输入样本的深度表示。在GeoPPI的自监督学习方案中,几何编码器的目标是在给定扰动的情况下重建复杂结构的原始结构,通过随机旋转残基的侧链扭转角来扰动其侧链的三维(3D)坐标。几何编码器将受扰动复合体的图形结构作为输入,学习估计扰动过程中的坐标变化,从而重建受扰动原子的原始三维坐标。自我监督学习方案中精心设计的重建任务要求几何编码器捕捉原子间相互作用的内在模式,为下一步任务提供信息。就目前来说, GeoPPI是第一种采用自监督学习方案学习蛋白质结构表示的方法,并利用信息传递神经网络对原子之间的相互作用进行建模。
捕捉蛋白质复合物结构中有意义的模式
作者从PDB-BIND和3DComplex数据库中构建了一个大规模的训练数据集用于自监督学习。具体地说,是去除了与下游基准突变数据集中相同和相似的复合物,并获得了13590个具有已解决结构的未标记复合物作为训练数据集。该数据集中的复合物被随机分为训练集和开发集。训练集中的每个复合体随机扰动2000次,用于几何编码器的训练。开发集用于验证和分析。
由于复合物中两种蛋白质的结合亲和力在很大程度上取决于其界面原子间的相互作用强度。经过作者团队的一系列复杂的测试(具体方法可见原文),表明经过训练的几何编码器具有三个特点:1) 经过训练的几何编码器可以检测到复合物中原子之间的异常结合相互作用。
由于突变还导致原子水平上的不同构象,因此对原子间相互作用的敏感性有助于预测突变后的结合亲和力变化。2) 经过训练的几何编码器可以识别复合物的界面区域,能够确定界面和非界面之间的不同模式。3) 经过训练的几何编码器可以从氨基酸的原始结构中学习氨基酸的物理特征,捕捉单个残基的基本特征。
评估突变对结合亲和力影响的表现
作者团队在六个基准数据集上评估了GeoPPI,分别S645、S1131、S4169、S8338、M1101和M1707数据集。前四个数据集是单点突变,M1101包含单点和多点突变,M1707是一个多点突变数据集。数据集名字里的数字代表了其数据点总数。
上述数据集中的一些复合物高度相关,所以机器学习方法可能会在这些数据集中过度训练。作者设置了交叉验证,其中用于训练和测试的复合物的结构不同。使用ECOD(进化域分类)同源性水平划分数据点,使不同的折叠不共享蛋白质域。ECOD同源性水平(“H水平”)是一个严格的相似性标准,因为它可以对域进行聚类。具体来说,对于基准数据集,作者首先通过将相应的蛋白质结构上传到ECOD服务器来获得每个复合物的分类域。对于抗体-抗原复合物,只考虑抗原的结构域,因为一个物种的单个抗体的结构域通常是相同的。然后,根据它们的区域将这些簇随机划分为五层。因此,不同折叠中的数据点不共享蛋白质结构域。为了使单个折叠上的数据点数量尽可能均匀,作者设计了一种贪婪的数据分割算法(详见原文)。他们将这个新的交叉验证实验称为按结构分割交叉验证(SSCV),以避免混淆。
表1是在SSCV实验中GeoPPI与其他方法的比较结果。GeoPPI在所有数据集上的表现都远超过其他方法。特别是与被认为是性能优异的TopGBT相比,GeoPPI在S1131上的Pearson相关系数提高了45%。TopGBT使用基于拓扑结构的特征来表示复合物,该复合物最初不是为表示原子之间的相互作用而设计的,这限制了其对突变后结合亲和力变化的预测能力。相比之下,GeoPPI中的自监督学习机制是为了明确地学习原子之间的相互作用,从而获得更好的预测结果。此外,作者在多点突变数据集(即M1101和M1707)上测试了GeoPPI的预测性能,在Pearson相关性和RMSE方面的性能优于MutaBind2和FoldX(表2).
表1 单点突变数据集上的性能比较
表2 多点突变数据集上的性能比较
除了之前使用的交叉验证测试之外,作者在这里评估了在S645(单点突变数据集)和M1707(多点突变数据集)上使用留一结构法交叉验证(CV)的方法。留一结构法测试涉及将一个蛋白质结构域的所有变体作为测试集并使用其他变体作为训练集。通过进行这种拆分,可以确保训练集中不存在测试集中的类似结构,这可以用来估计突变对之前未见的蛋白质的影响。在这个实验中,主要比较了每个基准数据集上的GeoPPI和以前的方法,即TopGBT(在S645上,图2A)和MutaBind2(在M1707上,图2B)。TopGBT在S645上获得0.39的相关性,而GeoPPI达到0.57(图2C)。MutaBind2在M1707上获得0.72的相关性,而GeoPPI产生0.76(图2D)。考虑到MutaBind2中使用的七个特征是手动设计的,因此这些功能可能无法全面表征突变的影响。然而,由于几何编码器产生的特征被学习来描述不稳定结构和稳定结构之间的差异,导致GeoPPI的预测能力比MutaBind2更好。
图2 预测模型在留一结构交叉验证中的表现
表现出更好的通用性和更快的预测速度
机器学习方法的普适性是一个被重点关注的问题,它决定了机器学习模型在预测蛋白质结合亲和力方面的应用范围。为此作者团队建立了一个独立的测试集来评估此模型。具体来说,因为S645中的复合物不足以进行训练,而S4169包含基准数据集中的大部分已知蛋白质结构域(难以构建独立的测试数据),所以选择将S1131作为训练集。从S1748中收集数据点,移除其与S1131数据集中的复合物相似的样本。过滤后的数据集包含641个数据点,因此可以被称为S641. 由于测试和训练数据(即S1131)来自不同的数据集,并且在同源性水平上几乎没有相似性,因此测试性能可以反映方法的预测通用性。
各方法的测试性能如表3所示。所有方法在该测试集上的表现都不好。请注意,交叉验证性能的下降不是机器学习模型偏差的结果,因为FoldX,一种基于经验能量的方法,也呈现出类似的下降。FoldX在S1131上产生的相关性为0.46,但在该测试集中仅获得0.16,这反映了该测试数据集中对预测的挑战。然而, GeoPPI仍然实现了最高的相关性,这表明了其适用性。
表3 在S641测试集上的表现结果
除了回归性能外,作者还对该测试数据集(即S641)进行了二元分类实验,以评估对稳定突变和不稳定突变进行分类的能力(表3)。在分类精度(ACC),ROC曲线下的面积(AUC)和马修斯相关系数(MCC)方面比较了各种方法,所有这些指标表明,GeoPPI在区分稳定突变和不稳定突变方面优于其他方法,进一步证实了GeoPPI在估计突变影响方面的优越性。并且,GeoPPI通常花费17.2秒来预测单个突变体的结合亲和力变化,从而将先前最快的方法(即MutaBind2)的预测速度提高了151%。
精准预测抗体突变对结合亲和力的影响
在本节中,作者团队以新冠病毒(SARS-CoV-2)为例来测试GeoPPI的实际效用。SARS-CoV-2在感染人类细胞时通过棘波糖蛋白识别并附着到血管紧张素转换酶2(ACE2)。能够有效阻止SARS-CoV-2进入宿主细胞的抗体为治疗相关疾病提供了一种有希望的疗法。作者团队测试了GeoPPI是否能够捕获抗体突变对与SARS-CoV-2结合亲和力的影响,然后使用GeoPPI设计对抗SARS-CoV-2的抗体。
首先构建一个包含与SARS-CoV-2S蛋白复合的强效抗体的测试数据集,其中大部分是最近从康复期患者中鉴定出来的。这项预测任务相当有挑战性,GeoPPI仍然实现了0.62的强相关性。相比之下,MutaBind2仅获得弱相关性(即0.29)。除了多点突变外,作者还收集了一个单一突变数据集,该数据集包含与单个SARS-CoV-2变体结合的多种抗体的复合物。这些抗体涉及CR3022、C002、C110、C135、C144等。它们中的大多数具有强大的中和活性。GeoPPI在这些测试数据上的性能也明显优于TopGBT。
除了识别抗体的亲和力增强突变外,GeoPPI还可用于识别SARS-CoV-2表面上的突变限制区。由于体外研究表明,SARS-CoV-2和SARS-CoV-1能够固定突变,从而逃避中性化抗体,因此针对病毒表面突变限制区的抗体可以更有效地治疗COVID-19。因此,作者使用经过训练的GeoPPI对SARS-CoV-2 N端结构域(NTD)表面进行深度扫描,发现了一个以残基A27为中心的大区域,该区域受其与ACE2结合的突变限制,并且在进化上也是保守的。该区域尚未被任何目前已知的抗体靶向,可能是一个有希望的靶点,能够限制病毒逃逸突变体的出现。
3
实验材料与方法
突变后预测蛋白质-蛋白质结合亲和力变化的任务定义
考虑到蛋白质-蛋白质复合物的3D结构、待突变的残基和新的氨基酸类型,目标是估计原始复合物和突变体之间的结合自由能变化(即ΔΔG)。
数据集
为了在自监督学习方案中训练和分析几何编码器,作者从PDB-BIND和3DComplex数据库中构建了一个大规模训练数据集。PDB-BIND是一个包含2591个复合体的数据库。3DComplex通过分层分类收集大量非冗余复合体。作者团队采用了3D复合物的一个子集,在蛋白质四级结构方面具有40%的同一性(用QS40表示),其中包含33864个复合物。为了避免几何编码器训练期间测试数据点的泄漏,从训练数据集中过滤出与基准数据集中相同或相似的复合体。最后,分别从PDB-BIND和3DComplex数据库中提取了977和12613个复合物。总体而言,作者团队使用13590个未标记复合体作为几何编码器的训练结构(10%作为开发集)。
在这项工作中使用的六个基准数据集来自三个蛋白质间相互作用数据库,即AB-Bind数据集、SKEMPI数据和SKEMPI 2.0数据集。AB-Bind数据集包含1101个数据点,这些数据点具有实验测量的绑定亲和力,也称为M1101数据集。作者团队还构建了一个只考虑AB-Bind数据集中单点突变的子集,称为S645数据集。
SKEMPI数据集是一个3047结合自由能变化的数据库,这些变化来自于科学文献中收集的具有实验确定结构的蛋白质-蛋白质异二聚体复合物的突变。从原始SKEMPI数据集中筛选出1131个非冗余界面单点突变子集,表示为S1131。
SKEMPI 2.0由来自345个复合体的7085个单点或多点突变组成。之前有研究人员筛选了单点突变,并从319个不同复合体中选择了4169个变体,称为S4169数据集。S8338数据集包括S4169和所有相应的反向突变。从中收集的1337个具有多点突变的变体及其部分反向突变构建的多点突变数据集,被命名为M1707数据集。
训练
对于几何编码器训练数据集中的每个复合体,作者团队通过随机选择一个残基并根据观察到的分布随机采样其侧链扭转角来扰动结构。每个复合体重复了2000次侧链扰动,在数据集中产生了27180000个数据点。在训练过程中,使用默认设置的Adam算法执行带有误差反向传播算法的标准批量梯度下降法。GeoPPI的最佳超参数通过开发集上的网格搜索程序进行校准。
对于每个数据集的GBT学习,作者使用交叉验证测试中每个折叠的训练数据来训练GBT。本文所有实验中超参数的选择也是基于训练数据的。以折叠交叉验证实验为例,给出了10%的训练数据作为开发数据,并选择在开发数据上产生最高性能的GBT超参数。基于选择的超参数在训练数据上训练GBT,并在验证数据上测试GBT。
4
总结与讨论
预测突变之后的蛋白质亲和力变化的研究工作具有充分的现实意义。作者团队的实验表明,GeoPPI能够学习表征蛋白质结构中原子之间互相作用的有意义的特征,在预测单点和多点突变造成的结合亲和力变化方面,GeoPPI在效率和性能方面超越了之前的模型与工具。此外,作者团队发现GeoPPI可以准确地估计一些最近发现的SARS-CoV-2抗体与S蛋白受体结合域(RBD)之间结合亲和力的差异这些结果这些结果表明,GeoPPI是预测突变后结合亲和力变化的有力工具,并有可能在广泛的临床应用中发挥作用任务,如设计具有更好结合活性的抗体,识别功能破坏突变,了解蛋白质生物合成的潜在机制等。
参考资料
1. Liu X, Luo Y, Li P, Song S, Peng J (2021) Deep geometric representations for modeling effects of mutations on protein-protein binding affinity. PLoS Comput Biol 17(8): e1009284.
https://doi.org/10.1371/journal.pcbi.1009284
2. https://github.com/Liuxg16/GeoPPI