2022年4月25日,来自上海药物研究所的蒋华良、郑明月等人在BioRxiv上发表文章,提出了一种新的药物设计范式sequence-to-drug(从序列到药物),即直接从蛋白质序列中发现类似药物的小分子调节剂。这是第一个sequence-to-drug的概念验证研究。它表明,sequence-to-drug范式是药物开发的一个有前途的方向。
一、介绍
在过去的几十年里,基于蛋白质的药物开发一直是一种成功的方法,适用于具有明确定义的蛋白质靶点的疾病。典型的基于蛋白质结构的药物设计(SBDD)项目从蛋白质序列开始,通过结构生物学或结构预测构建三维结构,识别结合口袋(正构位点或变构位点),最后通过虚拟筛选或从头设计发现活性调节剂。作为一个复杂的、人工设计的管道,这种方法包含多个独立优化的步骤,每个步骤都有其自身的局限性。
其局限性为:首先,大量的蛋白质没有高分辨率的结构。并非所有预测结构都适合SBDD,因为只有36%的残基具有非常高的置信度。其中活性位点的精确结构预测仍然是一个未解决的挑战,因为这些局部结构往往会打破“蛋白质折叠规则”;其次,关于结合口袋的先验知识对于SBDD至关重要,而且为具有多个域的新靶标定义这样的口袋不是一个简单的问题;此外,由于变构效应的各种机制和高计算成本,预测变构位点仍然具有挑战性;同时,蛋白质的结构灵活性允许其适应各自的分子结合剂并经历不同的内部运动,使口袋更难定义;最后,虚拟筛选会产生误报并且可能会从前两步迅速积累错误。
作为传统方法的替代方案,作者提出了一种序列到药物的新范式,该范式直接从蛋白质序列中发现调节剂,通过端到端的可微分学习跳过中间步骤。
图1a 基于靶点的药物设计的传统管道和序列到药物的范式
端到端可微分深度学习彻底改变了计算机视觉和语音识别,通过将复杂管线的所有组件替换为可微分基元,从而实现从输入到输出的联合优化。这种新范式很有吸引力,因为它以自洽和数据高效的方式执行整个学习过程,避免了复杂管道的错误累积。
许多深度学习模型已提出使用蛋白质序列作为输入,但没有一个彻底验证了序列到药物范式的概念。在这项工作中,作者首次通过三个阶段解决了这个问题(图1b)。
图1b 序列到药物范式的概念证明的三个阶段,每个阶段用不同的颜色标示
首先,作者设计了TransformerCPI2.0,与基于3D结构的方法(如分子对接)相比,它表现出了竞争力,作为序列到药物范式的基本工具。
其次,作者测试了TransformerCPI2.0是否按预期学习知识,而不是仅表现出数据偏差。
为了判断一个模型是否真的具有泛化的能力,需要检查它是否仅仅记住了数据分布,或者学习了作者感兴趣的分子间识别和调节。为此,作者设计了两种计算分析(三氟甲基的耐药性突变分析和分子取代效应分析),以验证作者的模型对蛋白质单点突变和分子活性悬崖的敏感性。
再者,作者应用了序列到药物范式来发现具有挑战性的靶标(斑点型POZ蛋白(SPOP)和无名指蛋白130(RNF130),它们没有现成的三维结构)的新hits。此外,作者将ADP-核糖基化因子1(ARF1)确定为质子泵抑制剂(PPI)的新靶标。在第一次概念验证之后,序列到药物范式似乎是合理药物设计的一个有希望的方向。
二、结果
1.序列到药物范式实现了可与分子对接相比拟的性能
为了构建一个可以实现序列到药物范式的模型,作者基于之前的工作开发了TransformerCPI2.0。其框架如图1c所示。
图1c TransformerCPI2.0的计算管道
作者构建了一个chEMBL数据集。TransformerCPI,CPI-GNN,GraphDTA(GAT-GCN和GCN被选为基线模型,并在chEMBL数据集上重新训练所有模型。作者在相同的标准下训练了TransformerCPI2.0和基线模型,并比较了它们在接收工作特性曲线下面积(AUC)和精确召回曲线下面积(PRC)方面的性能。TransformerCPI2.0 在所有模型中实现了最佳性能,也表现出最大的泛化能力。
此外,作者设计了一个名为chEMBL27数据集的分时测试集,以预测训练集后在线存储的新数据,TransformerCPI2.0仍然优于基线模型。由于作者的训练集是从chEMBL23生成的,因此该测试表明作者的模型可以从过去的知识中学习并推广到未来的数据。
作者还将TransformerCPI2.0与传统的SBDD方法进行了比较,以更好地了解其从大型化合物集合中富集活性分子的能力。在两个基准对接数据集(DUD-E和DEKOIS2.0)上,TransformerCPI2.0与除Glide SP之外的所有基于结构的对接程序相比,取得了具有竞争力的性能。
此外,与一些著名的基于机器学习的评分函数相比,TransformerCPI2.0的性能令人满意。总体而言,作者的方法不依赖于蛋白质3D结构,但实现了与基于3D结构的分子对接相当的性能,并且在随后的研究中,它将用于解决虚拟筛选和靶标鉴定任务。
2.对耐药相关的蛋白质单点突变敏感
为了进一步测试TransformerCPI2.0是否对蛋白质序列的微小局部修饰敏感,作者将给定蛋白质序列的每个氨基酸逐个突变,并研究预测评分是否显着变化。该分析模仿了自然界中的耐药性过程,其中单个氨基酸突变可能导致对药物的敏感性改变。
作者选择HIV-1逆转录酶及其抑制剂多拉韦林作为示例(图2a)。
图2a HIV-1逆转录酶和多拉韦林的共晶体结构(PDB: 4NCG)。多拉韦林的结合口袋以粉红色标示
结果发现,具有高相对活性变化评分(ΔR)的位置与多拉韦林的结合位点高度重叠,因为结构和结合口袋信息都不包括在训练阶段,这就说明了TransformerCPI2.0已经隐式地学习了有关结合位点位置的信息。在这些突变中,P225被预测是HIV-1逆转录酶中最重要的位点,实际上在多拉韦林的结合中也起重要作用。此外,作者分析了TransformerCPI2.0预测的特定突变模式,发现一些预测与基本事实相匹配:TransformerCPI2.0正确预测了P225H,F227C/L/R和P236L。
另一个可能的担忧是,该模型可能仅从蛋白质序列中学习与药物敏感性相关的残基信息,而不是从作者希望它学习的蛋白质-配体相互作用中学习。作者选择阿司匹林作为阴性对照,发现其ΔR的模式与多拉韦林的ΔR模式有显着差异。耐药性分析验证了TransformerCPI2.0对蛋白质的单点突变敏感。
3.对小分子活性悬崖敏感
活性悬崖通常被理解为效力差异较大的成对或一组相似的化合物。为了研究TransformerCPI2.0是否对配体的微小修饰敏感,作者设计了三氟甲基取代效应分析作为示例,最后TransformerCPI2.0展示出了比TransformerCPI, GraphDTA, GCN和随机猜测更高的预测能力。
图2e和图2f 左图是三氟甲基替代数据集的数据分布。只有15.73%的-CH3被-CF3取代后,生物活性至少可以增加或减少一个数量级。作者对这部分数据进行了取代效应分析。右图为-CH3被-CF3取代后导致生物活性显著提高的例子。
作者选择了说明性示例来证明TransformerCPI2.0的能力,以区分产生剧烈活性变化的细微结构差异,其中没有蛋白质靶标和化合物在训练集中。该相关实验中,TransformerCPI2.0预测活动变化得分Δsc高于0.5。这证明化合物中的单个取代将显着改变TransformerCPI2.0的预测分数,这意味着作者的模型足够敏感,可以解释小分子的活性悬崖。
4.靶向E3泛素蛋白连接酶的药物设计
SPOP作为cullin3-RING泛素连接酶的接头,介导底物蛋白识别和泛素化。之前的一项研究证实,SPOP是治疗清细胞肾细胞癌(ccRCC)的有吸引力的靶点,但就蛋白质-蛋白质相互作用而言,它是一个具有挑战性的靶点。
在这里,作者使用TransformerCPI2.0进行虚拟筛选以发现直接靶向SPOP的新骨架化合物,以测试序列到药物范式在具有挑战性的靶点上的可行性。
图3 发现SPOP的一个新的骨架hit
通过荧光偏振(FP)测定(hit率∼5%)将四种化合物确定为初始hits,221C7是最活跃的化合物,IC50为4.30μM。多个结果验证了221C7通过直接与SPOPMATH结合来破坏SPOP与底物的相互作用。应用耐药突变分析来解释TransformerCPI2.0的预测,并将重要残基映射到全长SPOP的结构上。重要的残基主要位于MATH域上,然后作者将221C7对接到预测的结合位点。
作为最初hit的221C7在细胞实验中是不活跃的,这可能是由于的214Å2的大拓扑极表面积(TPSA)引起的细胞通透性差。因此,作者进行了hit扩展,获得了26个221C7的结构类似物,其中19个在FP测定中是活跃的。其中,230D7具有较小的TPSA(161Å2)和最小的 IC50的FP测定结果,因此,选择它进行进一步验证。
蛋白质热变换试验(PTS)显示剂量依赖性Tm移位,表明230D7可以直接结合到SPOPMATH。此外,NMR实验证实了SPOPMATH和230D7之间的直接结合。在细胞水平上进行了共免疫沉淀和体内泛素化实验,结果表明230D7剂量依赖性降低PTEN与SPOPMATH的结合。在验证分子活性后,作者进行230D7的细胞水平的功能研究。
图4i三种ccRCC细胞系和两种非ccRCC细胞系在230D7的作用下的细胞增殖情况
作者测试了三种ccRCC细胞系(786-O,Caki-2,OS-CR-2)和两种非ccRCC细胞系(4T-1,MDA-MB-231)在230D7存在下的细胞增殖。作者通过序列到药物范式成功发现了靶向SPOP的新型小分子抑制剂,其中230D7显示出阻断SPOP活性治疗ccRCC的治疗潜力。
在发现SPOP的新型抑制剂后,作者应用这种范式来发现更具挑战性的靶标RNF130的靶点,其晶体结构未知(RNF130是一种E3泛素蛋白连接酶,没有结构信息,也没有化学结合剂的报道)。
作者最近的研究表明,RNF130在自身免疫性炎症中起着重要作用。作者利用TransformerCPI2.0筛选出直接与RNF130结合的化合物,并发现iRNF130-63是RNF130的结合剂。iRNF130-63和RNF130蛋白之间的直接结合通过表面等离子体共振(SPR)得到证实,并且这种结合表现出快速启动,快速关闭的动力学模式, KD 9.36μM。作者还进行了细胞热变换测定(CETSA),结果支持iRNF130-63直接与RNF130蛋白结合并热稳定。
成功发现SPOP和RNF130的新靶点表明,序列到药物范式对于具有令人鼓舞前景的虚拟筛选是可行的。
5.通过靶向ARF1将质子泵抑制剂重新定位为抗癌药物
受益于端到端的性质,序列到药物的工作流程可以反向用于实现药物靶标鉴定或药物再利用。这意味着作者可以进行蛋白质组范围的靶标筛选,因为除了给定的药物分子作为模型输入外,只需要蛋白质序列信息。
在这里,作者选择质子泵抑制剂(PPI)作为药物再利用的案例研究。TransformerCPI2.0应用于从DrugBank数据库中对2204种人类蛋白质进行评分。对照4种经典PPI(雷贝拉唑、兰索拉唑、奥美拉唑和泮托拉唑),按预测相互作用概率对结果进行排序。在分析了前20种蛋白质后,ARF1因其通过脂肪分解途径对癌症干细胞(CSCs)的致癌作用而引起了作者的注意。
ARF1是一种小的G蛋白,属于RAS超家族,其在活性GTP结合和非活性GDP结合构象之间循环。抑制ARF1活性是癌症免疫治疗的一个有希望的方向,因此,作者选择ARF1进行研究。
在4种PPI中,雷贝拉唑对ARF1的热稳定性影响最大,因此作者选择雷贝拉唑进行进一步的功能研究。作者进行了由ARNO(一种GEF)催化的GDP/MANT-GTP核苷酸交换,发现雷贝拉唑以浓度依赖性方式抑制核苷酸交换过程,验证了其对ARF1活性的抑制作用。
所有数据都表明,雷贝拉唑通过诱导抗肿瘤免疫反应来抑制结肠癌的生长。总之,将PPI重新用于ARF1的成功表明,将序列到药物范式的逆向应用用于药物重新定位也是可行的,前景令人鼓舞。
三、讨论
传统的基于结构的药物设计管线是一个复杂的、人工的管线,具有多个独立优化的步骤。需要结构功能洞察力和深厚的经验来通过结构生物学或结构预测构建3D结构,识别潜在的结合口袋,无论是正构位点还是变构位点,并通过不同的分子对接方案筛选活性分子。但是,这种多步骤操作容易出错。例如,蛋白质结构不准确,结合口袋的多样性和动态性,不正确的口袋定义,评分功能的选择不当等,以及每个步骤的错误或固有的准确性限制迅速积累并显着降低成功率。
为了解决这个问题,作者提出了一种新的序列到药物范式,直接从蛋白质序列中发现调节剂,跳过中间步骤。这项概念验证研究从三个方面分析了序列到药物的范式:其与基于3D结构的分子对接的性能比较、其对结合知识的学习、以及针对挑战靶标和药物再利用的药物设计。
最近,由于虚拟库的快速增长,如DrugSpaceX和合成组合库(REAL)它覆盖了一亿到数十亿种化学品的空间,对开发计算效率高的虚拟筛选方法有很高的需求。从序列到药物的范式可以与这些大型虚拟库相结合,从未开发的化学空间中快速发现新的活性骨架。一方面,可用基因组测序技术和注释技术的爆炸式增长已经彻底改变了生物信息学,序列到药物范式同样将通过结合更丰富的多序列比对或功能注释信息而迅速发展;另一方面,作者可以进行更全面的蛋白质组范围的虚拟筛选,加速发现针对新颖但具有挑战性的生物学靶点的新hits。
总体而言,作者的研究结果为序列到药物范式提供了概念证明,作者相信这将成为未来合理药物设计管线的重要组成部分。
参考资料
Drug design and repurposing with a sequence-to-drug paradigm
https://www.biorxiv.org/content/10.1101/2022.03.26.485909v4
--------- End ---------