编译 | 刘索妮 审稿 | 林轩
今天给大家介绍以色列理工学院Kira Radinsky课题组发表在CIKM会议上的一篇文章“Multi-Property Molecular Optimization using an Integrated Poly-Cycle Architecture”。分子先导优化是药物发现的一项重要任务,重点是生成类似于候选药物但具有增强属性的分子。大多数先前的工作都集中在优化单个属性上。然而,在实际环境中,作者希望产生满足多个约束条件的分子,例如,效力和安全性。同时优化这些属性是困难的,主要是由于缺乏满足所有约束的训练样本。作者在文章中提出了一种基于集成多循环架构(IPCA)的多属性分子优化新方法,该架构分别学习每个属性优化的转换,同时限制所有转换之间的潜在嵌入空间,能生成同时优化多个属性的分子。同时,作者提出了一种新的损失函数,它平衡了单独的转换并稳定了优化过程。我们评估了优化两个属性——多巴胺受体(DRD2)和药物相似性(QED)的方法,结果表明基于IPCA的多属性分子优化方法优于之前的先进方法,尤其是当满足所有约束且训练样本稀疏的情况。
1
引言
开发一种新药是一个非常昂贵的过程,需要花费长达15年的时间和投入超过20亿美元的成本。先导分子优化是一项重要任务,其中确定一种物质具有所需的特性,并改进其化学特性以创建将成为潜在候选药物的最佳物质。针对这个问题,早期无监督机器学习方法显示出低于标准的结果,但最近的工作带来了更多的希望。当前的最新技术利用一种对偶学习方法进行单性质分子优化。其他先进的方法是基于监督的,涉及获取一组配对分子即原始分子和具有更理想属性的增强分子,来训练监督的生成模型。大多数先前的工作主要集中在优化单个属性、同时保持与原始先导分子的相似性上,但在实际应用中,通常需要生成满足多种约束条件的分子,例如效力和安全性。但这项工作是具有挑战性的,因为这些方法不仅需要大量的训练集,还需要大量同时符合所有约束的分子训练样本,后者很难被满足。为了解决这个问题,作者将分子指纹提供给翻译器,保持优化分子与源分子的相似性。由于不同的属性会导致不同的优化路径,具有不同的训练复杂度,作者提出了一种新的损失函数,通过在学习过程中调整组件的系数来调整组件的相对重要性。
这项工作的贡献有三方面:
(1)作者设计了一种新颖的未配对端到端生成模型和独特的多循环训练方案,将分子指纹提供给翻译器来保持分子相似性,同时优化多个分子特性。这项工作是第一个在模型家族中使用SMILES分子表示解决多属性优化问题。
(2)作者提出了一种自适应损失函数,可以在训练期间平衡多属性优化,从而产生出色的结果。
(3)作者展示了大量数据集的实验结果,并优化了多层次的DRD2(多巴胺受体)和QED(药物相似性)属性。IPCA架构在生成具有更优属性分子的成功率方面表现出优于SOTA基线的性能,特别是当数据中只有少量满足多个属性的示例时。作者进行了消融测试,研究 IPCA在不同设置中的模型性能。
该系统目前正在部署用于个性化医学和专注于基于RNA治疗的纳米技术研究实验室,目标是使用IPCA架构来优化候选分子,以生成新的RNA载体分子。
2
方法
分子域(如高吸毒可能性)用大写字母表示,如X,从该分子域提取的分子用小写字母表示,如x。也就是说,