DRUGAI
今天为大家介绍的是来自美国密歇根州立大学的Guo-Wei Wei团队的一篇论文。尽管预训练的自然语言处理(NLP)模型在各个领域取得了成功,但它们在计算生物学中的应用受到了阻碍,因为它们依赖于生物序列而忽略了重要的三维(3D)结构信息,这与NLP模型的序列架构不兼容。在此,作者提出了TopoFormer,该模型通过整合NLP模型和一种多尺度拓扑技术——持久拓扑超图拉普拉斯(PTHL)构建而成。PTHL能够系统地将复杂的3D蛋白质-配体复合物在不同的空间尺度上转换为NLP可接受的拓扑不变量和同伦形状序列,捕捉跨越不同空间尺度的基本相互作用。TopoFormer在多个基准数据集中的评分、排序、对接和筛选任务中表现出了出色的准确性和卓越的性能。这种方法可以用于将一般的高维结构数据转换为NLP兼容的序列,为更广泛的基于NLP的研究铺平了道路。
药物发现对现代医疗至关重要,但传统的药物开发方法费时费力且费用高昂,通常需要十多年和数十亿美元才能将一种药物推向市场。尽管分子对接、自由能扰动和经验建模等方法在药物发现方面取得了进展,但它们通常缺乏准确性,计算量大,并且可能错过非传统结合位点或相互作用动力学,潜在地忽略了治疗机会。深度学习模型作为药物设计的有力工具,因其预测蛋白质结构和识别复杂模式的能力而备受赞誉,标志着向数据驱动方法的重大转变。然而,这些模型仍面临频繁的重新训练和依赖标记数据的挑战。
突破性的Transformer模型如ChatGPT,通过大规模预训练和无标签数据,展示了自监督学习的潜力,特别是在标记数据不足的药物发现领域。尽管Transformer框架在自然语言处理领域取得了成功,但其在药物发现领域的直接应用存在挑战,尤其是在蛋白质-配体复合物建模中,因为它忽略了结构的重要立体化学信息。
TopoFormer架构
图 1
Transformer 架构引入了一种使用注意力机制进行跨领域顺序数据分析的新技术。受到这一点的启发,如图1所示,作者开发了一种拓扑Transformer模型(称为TopoFormer),它将持久拓扑超图拉普拉斯(PTHL)与Transformer框架相结合。与处理蛋白质和配体序列的传统Transformer不同,TopoFormer以3D蛋白质-配体复合物为输入。它通过PTHL将这些复合物转化为拓扑不变量和同伦形状的序列,从而在多个尺度上捕捉它们的物理、化学和生物相互作用。在多样化数据集上的预训练使TopoFormer能够理解复杂的分子相互作用,包括分子序列中不可见的立体化学效应。通过在特定数据集上的微调,它能够捕捉复合物内的详细相互作用及其相对于整个数据集的特征,从而增强下游深度学习应用。
如图1a所示,为了专注于分析,作者在设定的距离(20Å或更精确的12Å)内识别重配体和附近的蛋白质原子。TopoFormer然后通过其拓扑序列嵌入模块(图1b)利用PTHL进行多尺度分析将3D分子结构转换为拓扑序列,这个过程将各种物理、化学和生物相互作用嵌入向量序列中。
如图1c所示,TopoFormer通过无标签的蛋白质-配体复合物进行自监督预训练,使用 Transformer的编码器和解码器来重建拓扑序列。这个阶段通过比较输出和输入嵌入的准确性来训练模型,以理解蛋白质-配体动态而不需要标记数据。在预训练之后,TopoFormer进入带标签复合物的监督微调阶段(图1d),此时初始嵌入向量成为评分、排序、对接和筛选等下游任务的关键特征。为了确保准确性和减少偏差,TopoFormer整合了使用不同种子初始化的多个拓扑Transformer深度学习模型,并与基于序列的模型进行互补。最终输出是这些不同预测的共识,结合了拓扑见解和深度学习,使TopoFormer成为分析蛋白质-配体相互作用的综合模型。
评估TopoFormer在评分任务中的表现
蛋白质-配体结合亲和力的预测在药物设计和发现中起着至关重要的作用。为了评估模型的评分能力,作者使用了PDBbind数据库中最广泛认可的三个蛋白质-配体数据集:CASF-2007、CASF-2013和CASF-2016。作者使用皮尔逊相关系数(PCC)、标准偏差(s.d.)和均方根误差(r.m.s.e.)来衡量评分函数的性能。在此任务中,作者考虑了两种TopoFormer 模型:一种是拓扑序列长度为100的较大模型(TopoFormer),另一种是拓扑序列长度为50的较小模型(TopoFormers)。
为了增强稳健性,作者为每个数据集训练了20个具有不同随机种子的TopoFormer以最小化初始化错误。为了减少使用单一模型类型的偏差,作者还采用了基于序列的模型,结合了蛋白质特征和简化分子输入线条表达(SMILES)特征。此外,作者还在这些基于序列的特征上训练了20个梯度提升回归树模型,并将它们的集体预测称为Seq-ML。最终输出是TopoFormer和Seq-ML预测的结合,分别表示为TopoFormer-Seq和TopoFormers-Seq。
图 2
图2c和2d展示了共识大小如何影响性能,结果显示较大的共识大小带来了更好的性能(更高的PCC,更低的r.m.s.e.)和更高的稳定性(更少的误差变化)。作者选择共识大小为10进行进一步分析,其中TopoFormer-Seq始终表现优于其他模型,紧随其后的是TopoFormers-Seq。
如图2a所示,TopoFormer模型在三个基准数据集上的PCC分数方面始终优于其他模型。通过400次重复实验的平均结果,TopoFormer-Seq在这些数据集上达到了大约0.84的平均PCC。在PDBbind v.2016数据集上,TopoFormer-Seq以0.866的PCC和1.561 kcal mol−1的r.m.s.e.表现尤为出色,超越了先前的领先者TopBP。图2e展示了预测的结合亲和力与实验结果之间的对比。
为了评估TopoFormer在结构相似蛋白质上的表现,作者使用了CASF-2016核心集,该核心集可根据蛋白质序列相似性分为57个簇。TopoFormer-Seq在所有簇中表现出最低的平均r.m.s.e.。对于最新的PDBbind v.2020,作者考虑了总共18,904个蛋白质-配体复合物进行训练,这些复合物与CASF-2007、CASF-2013和CASF-2016的核心集没有重叠。作者的模型在CASF-2007核心集上达到了0.853的最终PCC和1.295的r.m.s.e.(相当于1.769 kcal mol−1)。在CASF-2013核心集上,PCC为0.832,r.m.s.e.为1.301(相当于1.777 kcal mol−1)。同样,在CASF-2016核心集上,该模型获得了0.881的PCC和1.095的r.m.s.e.(相当于1.496 kcal mol−1)。在PDBbind v.2016核心集上,模型达到了0.883的PCC和1.086的r.m.s.e.(相当于1.483 kcal mol−1)。这些结果突显了TopoFormer模型在蛋白质-配体结合亲和力预测领域的稳健性和预测能力。
评估TopoFormer在排序任务中的表现
评分函数的有效性通过其在不同簇内准确排序蛋白质-配体复合物结合亲和力的能力来进行评估。在这项工作中,作者采用了两种评估方法:高层次成功率和低层次成功率。在高层次成功指标中,目标是完美排序每个簇内复合物的结合亲和力。相反,低层次成功标准只要求评分函数识别出结合亲和力最高的复合物。排序效率的评估称为“排序能力”,通过在指定基准中正确识别亲和力的比例来衡量。
图2f展示了基于TopoFormer的模型的排序能力。对于CASF-2007数据集,TopoFormer-Seq 模型在低层次评估中达到了72%的成功率,在高层次评估中达到了63%的成功率。相比之下,TopoFormers-Seq模型在低层次评估中达到了70%的成功率,在高层次评估中达到了58%的成功率。对于CASF-2013 数据集,TopoFormer-Seq模型在低层次评估中达到了76%的成功率,在高层次评估中达到了63%的成功率,超越了早期模型的表现。在CASF-2016数据集中,因为该数据集包含57个簇,每个簇包含五个不同的复合物,使得排序任务更加艰巨。在这种情况下,TopoFormer-Seq模型在低层次评估中达到了60%的成功率,在高层次评估中达到了21%的成功率。
评估TopoFormer在对接任务中的表现
在本研究中,作者利用TopoFormers评估其对接能力,特别是其区分本地结合构象与由现有对接软件生成的构象的能力。作者的评估集中在CASF-2007和CASF-2013基准数据集上。一种构象如果其相对于真实结合构象的均方根偏差(r.m.s.d.)小于2 Å则被认为是本地的,预测的结合能量最高的构象与本地构象匹配时则预测成功。
图 3
在分子对接中,深度学习方法已被有效应用,取得了显著进展。为了公平评估,作者在公开数据上训练了TopoFormers,并在CASF-2007和CASF-2013数据集上进行了比较。如图3f和3g所示,TopoFormers在CASF-2007上达到了93.3%的成功率,在CASF-2013上达到了 91.3% 的成功率,优于现有模型,展示了拓扑方法的有效性。这凸显了新方法在提高对接准确性方面的多样性和潜力,为对接挑战提供了全面且创新的解决方案。
为了理解 TopoFormers在微调后的学习内容,作者使用注意力得分分析了空间尺度对蛋白质-配体相互作用的影响。图3b-e展示了靠近蛋白质口袋的四个配体构象(图3a中突出显示的PDB标识符 1AJQ)。图3b中的真实实验构象的r.m.s.d.为0 Å。作者计算了所有空间尺度下TopoFormers的注意力得分,反映了相互作用范围对对接得分的影响。d = 4.2 Å时的最高注意力得分表明该尺度对结合亲和力影响最大。图3c-e显示了r.m.s.d.分别为1.6 Å、5.9 Å和7.5 Å的构象,其最大注意力得分分别在d = 7.2 Å、d = 9.2 Å和d = 10.4 Å处。这表明构象偏离真实位置越大,影响对接得分的尺度也越大。
评估TopoFormer在筛选任务中的表现
为了评估TopoFormer方法的筛选能力,作者使用了CASF-2013核心集。鉴于筛选能力的评估需要识别每个核心集中的65个蛋白质中的三个真实结合配体,作者采取了关键步骤对预训练的TopoFormers模型进行微调。为此,作者组建了一个包含配体构象和能量标签的训练数据集,根据每个蛋白质靶点定制TopoFormers。
作者的筛选任务包括两个关键步骤。首先,作者通过对接过程生成195个配体的构象,并使用TopoFormers预测它们的得分,记作S1。随后,作者采用基于序列的分类梯度提升决策树模型,利用Transformer-CPZ模型和ESM模型的组合特征。这会为给定的配体生成概率,记作S2。得分较高的配体(S = S1 × S2)被识别为预测的结合配体。由于计算资源的限制,作者仅使用TopoFormers进行虚拟筛选。此外,在本研究中,成功率和富集因子(EF),特别是EF1%、EF5%和 EF10%被用于药物发现的虚拟筛选。这提供了该方法优先选择活性化合物而非非活性化合物的能力的见解。
图3j和3k显示,TopoFormer在成功率和EF方面优于以前的方法。TopoFormer对排名前1%的分子实现了68%的成功率和29.6%的EF,超过了GlideScore-SP的60%的成功率和19%的EF。对于排名前5%和10%的分子,TopoFormer的成功率分别为81.5%和87.8%,EF分别为9.7和5.6,是测试方法中最高的。AGL-score和ΔVineRF20在CASF-2013数据集上仅在前1%的分子中显示出可比的结果。
如图3h所示,为了确定对TopoFormers预测影响最大的蛋白质-配体相互作用的尺度,作者为一个特定的复合物(PDBID 1E66)生成了显著性图。分析考虑了距离配体12 Å内的蛋白质原子。在图3i中,y轴表示不同的元素特定组合,x轴表示从2 Å到12 Å的过滤参数。颜色条表示每个拓扑特征的梯度强度,黑色表示较大的梯度,特别是在4 Å尺度附近。此显著性图突出了TopoFormers的决策过程,显示了4 Å附近的重原子相互作用显著影响模型的筛选输出。
表 2
作者还使用LIT-PCBA数据集评估了提出的方法,该数据集的实验验证活性与非活性之间存在极端不平衡,反映了真实筛选任务的挑战性。作者在评估中包括了LIT-PCBA数据集的所有15个靶点,使用这些靶点的EF1%来衡量性能。如表2所示,作者的模型显示出竞争力的性能,达到了7.29的平均EF1%,超过了大多数基于评分函数的筛选方法。
讨论
在本研究中,作者利用PTHL对3D蛋白质-配体复合物进行详细表示,优于传统图、单纯形复形和超图。拓扑超图通过定向超边捕捉复杂的0到3维的高阶关系,允许建模超越简单成对连接的复杂相互作用,并结合电负性和电离能量等物理化学属性。相比传统的连续同调,作者的方法通过非谐波谱分析更广泛的结构,提供更全面的表征。通过多尺度分析,捕捉了共价、离子和范德华力等相互作用,增强了模型对蛋白质-配体相互作用的理解。
编译 | 于洲
审稿 | 曾全晨
参考资料
Chen D, Liu J, Wei G W. Multiscale topology-enabled structure-to-sequence transformer for protein–ligand interaction predictions[J]. Nature Machine Intelligence, 2024: 1-12.