Brief. Bioinform. | 强化学习驱动PROTAC linker的3D生成

今天为大家介绍的是来自广州国家实验室陈红明团队发在Briefings in Bioinformatics上的一篇论文“3D based generative PROTAC linker design with reinforcement learning”[1]。PROTAC 全称为 proteolysis-targeting chimeras (蛋白水解靶向嵌合分子)，是一种杂合双功能小分子化合物，由三部分组成：靶蛋白配体（warhead）、连接子 Linker、和 E3 连接酶配体（E3-ligand），结构中两个配体之间通过 linker 相连，从而形成“三体”复合物（PTS）：warhead-Linker-E3-ligand。它通过将靶蛋白和细胞内的 E3 泛素连接酶的距离拉近，利用泛素-蛋白酶体途径特异性地降解靶蛋白。由于PROTAC相对较大的分子量，以及维持其在蛋白口袋中结合模式的复杂性，合理的设计多样性的linker极具挑战性。已有的PROATC的linker生成方法只能生成1D或2D的linker，并没有考虑该linker对三元复合物PTS的影响，无法衡量其在PTS内的合理性。本文提出了一种新的3D的Linker生成模型PROTAC-INVENT，该模型不仅可以生成PROTAC的2D结构，还可以生成PROTAC与靶蛋白和E3连接酶的三维推定结合构象PTS。该模型在强化学习（RL）框架下训练，使PROTAC结构的生成偏向于预定义的2D和3D属性。并通过实例验证了该模型在生成合理的PROTAC三维构象方面的实用性。另一方面，该算法的工作流也可以作为专门针对PROTAC的对接协议。

模型概览

PROTAC-INVENT以一对SMILES片段（warhead和E3-ligand)以及一个参照的PTS作为输入，返回生成的linker和所形成的PROTAC在PTS口袋的结合构象(如图1所示)。PROTAC-invent集成了两个模块（生成模型和打分）。首先，预训练的生成模型产生Linker的SMILES形式，与warhead和E3-ligand一起形成完整的PROTAC的SMILES。然后利用RL搜索化学空间，优化分子性质。在其中实现了保持warhead和E3-ligand构象不变（与参照PTS相比）的前提下，将PROTAC由2D转成3D，并给出docking score。然后利用基于2D和3D的综合评分来驱动RL（如图2）。

图1. 模型概览

图2：PROTAC-INVENT的工作流

PROTAC的3D构象生成

在参考配体附近生成PROTAC的初始构象

首先，由预训练生成模型去生成Linker的SMILES形式，与输入的warhead和E3-ligand合并，得到完整PROTAC的SMILES。然后使用Omega[2]将其转换为初始3D构象。然后使用ROCS程序将PROATC的3D构象与参考PROTAC构象叠加在一起。ComboScore[3]用来衡量参考构象和PROTAC构象之间的相似度。由于PROTAC的分子量过大，这种叠加通常不能产生良好的对齐效果，但可以达到将生成PROTAC的linker部分带到参考分子的linker附近的目的。

拼接生成的PROTAC的linker部分与参考配体warhead和E3-ligand

叠合完成后，生成的PROTAC分子将会去除两端的结构，只保留linker部分，然后将linker与参照PROATC的两端结构拼接起来，形成重组的PROTAC构象(RPC)。经过该操作后，RPC中两端片段（warhead和E3-ligand）的坐标与参考配体完全一致，但linker与两端结构连接处的键长、二面角需要进行修正。

优化RPC的构象

为了修正RPC连接处的构象，同时使两端结构尽可能的接近参考PROTAC构象，作者使用了Schrödinger下的MacroModel模块进行了带约束的分子构象优化，得到了优化后的构象（OPC）。实现了既保持两端构象为晶体结构的构象一致，又使linker的衔接部分合理化的目的。

将OPC对接到PTS

为了进一步评估OPC在PTS内的合理程度，将OPC对接到 PTS口袋中，获得docking score。分子对接过程通常需要经过: 初始构象采样获得多个起始点，并从采样的起始点进行能量最小化。对于大体积的PROTAC分子来说，构象搜索空间将会变得很大，导致计算时间过长，而且无法保证warhead和E3-ligand在对接过程中保持与参考配体的构象一致。为了解决这个问题，作者首次采用AutoDock Vina的“local-only”模式进行对接，在这种模式下，会跳过初始构象采样阶段，而将输入构象作为构象优化的唯一起点。这种模式既最大程度的保持warhead和E3-ligand的构象不变，又能实现能量优化的目的，同时保持了对接的高效性。

图3. PROTAC的3D构象生成过程示意图

PROTAC-INVENT的打分组件

该工作共考虑了Linker的长度、芳香环的数量、子结构的类型、对接打分以及对接后与参照分子两端结构的偏移度Ps等打分组件。这些组件通过加权和（公式1）和加权积（公式2）的形式整合在一起去评估生成的Linker的性质。

对接后与参照分子两端结构的偏移度Ps

DPC在PTS结合位点采用“local-only”模式进行对接后，PROTACs的两端结构有时会与参考PROTAC的两端发生较大的位置偏移。为了衡量这一偏移程度，作者设计了计算两个PROTAC的两端结构的Shape相似度的打分函数Ps。如图4所示的两个PROTAC分子a和b。分子a和分子b的Ps分数分别为0.903和0.687，而它们的对接分数大致相等(- 11.37 vs - 11.29)。显然，在分子对接后，分子a与参考配体的偏差比分子b小，说明a的linker更加适合该体系。

图4. PROTAC分子的Ps指标

案例分析

为了验证PROTAC-INVENT的实用性，作者选择了BTK体系（PDB code：6W8I），采用该算法去生成新颖的linker。图5展示了PROTAC-INVENT模型生成的PROTAC分子以及在PTS内构象，及其各种打分值。

图5. PROTAC-INVENT针对BTK体系所生成的PROTAC分子

附加功能-PROTAC对接协议

除了生成PROTAC的linker结构外，该套算法的工作流也可作为一种实用的专门针对PROTAC分子的对接算法。作者对比了PROTAC-INVENT和AutoDock Vina以及Glide算法下，对14种PTS体系下的PROTAC分子进行Redocking实验。结果发现，无论采用哪一种PROTAC的初始构象（LigPrep或Rocs），PROTAC-INVENT算法对接得到的结果都是速度最快的（如Table 2），且对接构象更加接近晶体结构构象。

图6 BAF体系下，不同的对接方法对PROTAC的对接效果

结论

为了合理设计PROTAC分子，作者提出了一种新颖的3D的linker生成模型PROTAC-INVENT。该算法首次将linker在PTS内的影响考虑进来，实现了在保持原有warhead和E3-ligand构象不变的前体下，原位长出更加合理的linker，并形成了PROTAC的三维结合构象。同时将该算法应用到已知PROTAC晶体结构上进行Redocking验证，与Glide和Vina进行了性能比较，结果表明该模型在这些方法中RMSD和计算速度都达到了最优。

参考资料

Li B, Ran T, Chen H. 3D based generative PROTAC linker design with reinforcement learning. Briefings in Bioinformatics 2023; 24:1–13
Hawkins PCD, Skillman AG, Warren GL, et al. Conformer generation with OMEGA: Algorithm and validation using high quality structures from the protein databank and cambridge structural database. Journal of Chemical Information and Modeling 2010; 50:572–584
Hawkins PCD, Skillman AG, Nicholls A. Comparison of Shape-Matching and Docking as Virtual Screening Tools. Journal of Medicinal Chemistry 2007; 50:74–82

强化学习 linker 模型算法优化

0 人点赞