今天给大家介绍的是来自IBM Thomas J. Watson研究中心的研究人员近日发表在Nature Biomedical Engineering上的一篇论文。论文中,作者提出了一种可以产生特定属性抗菌药的高效计算方法。该方法利用了在深度生成式自动编码器建模的分子的信息潜空间上训练的分类器的指导,并使用深度学习分类器和从高通量分子动力学模拟中得出的物理化学特征来筛选生成的分子。作者以抗菌肽(antimicrobial peptide ,AMP)作为设计对象,在48天内,鉴定、合成和实验测试了20种候选抗菌肽,其中,有两种抗菌肽(YI12和FK13)极具治疗潜力。
1
主要内容
AMPs通常有12-50个氨基酸,由多种高阶有机体产生,用于对抗入侵的微生物。由于天然AMPs特殊的结构和功能多样性,它们具有良好的活性和诱导(甚至降低)耐药性的倾向,被认为是传统抗生素的良好替代品和潜在的下一代抗菌药物。
当前治疗性肽的设计方法严重依赖于结构-活性关系的研究,这类方法要与巨大的分子空间、复杂的结构-功能关系和多种竞争约束作斗争。而在人工智能领域,传统的计算方法是建立一个预测模型来估计给定分子的属性,然后将其用于候选人的筛选。另一种是开发一个生成式模型,用于具有用户指定属性分子的自动从头设计。早期的目标生成的深度生成模型通常将学习限制在具有所需属性的固定分子库中,这会影响产生的分子的新颖性和有效性。而改善方法如贝叶斯优化,强化学习或半监督学习,会造成额外的复杂计算问题。
因此,为解决这些问题,作者提出了一个针对分子设计和筛选的计算框架,该框架结合了属性控制的深层生成模型和物理驱动的模拟。对于目标生成,作者提出了条件潜在(属性)空间采样(Conditional Latent (attribute) Space Sampling, CLaSS),它的工作原理是从多肽的信息隐藏空间中采样,并且依赖一个由分类器在隐藏表示中训练的分子属性指导的拒绝采样方案来生成特定分子。作者选择在一个由所有已知肽序列组成的较大数据集上训练的深度生成自编码器的潜在空间上执行CLaSS,因为大量分析表明,由此产生的潜在空间可提供肽的特性信息,从这个信息空间生成的AMP是独特、多样、有效和优化的。
考虑到一些额外的关键需求,如广谱效价和低毒性,作者提供了一种高效的电子信息筛选方法,使用深度学习分类器,并增加了高通量物理驱动的分子模拟(见图1)。在48天的实验中,作者从近90000条生成序列池中筛选通过了20条候选序列,然后通过筛选候选序列发现了两种新的短长度肽(YI12 和 FK13),经实验验证,它们对多种病原体具有较强的抗菌活性。
图1:人工智能驱动加速抗菌序列(seq.)设计方法的概述和时间表
2
实验
2.1 肽自编码器
为了建立肽潜在空间的模型,作者使用了基于深度自编码器的生成模型,该模型由两个神经网络组成,一个编码器和一个解码器(详细内容见图2)。在VAE/WAE框架内,肽的生成被表述为一个密度建模问题,即估计p(x),其中x是短的可变长度的氨基酸串。
图2:属性控制的多肽序列生成阶段
- 在肽序列上训练生成式自编码器(AE)模型(图1,autoencoder training);
- 将稀疏肽属性映射到模型的潜在z空间,构建z空间的密度模型(图1,autoencoder evaluation);
- 使用CLaSS从z空间采样(图1,controlled generation)。
受到在大型语料库上进行预训练的无监督表征学习的启发,作者选择在UniProt 数据库(一个庞大的蛋白质/肽序列数据库)中报告的所有的肽序列上训练一个全局模型。
图3:生成式自编码器潜在空间的特征
2.2 控制序列生成的CLaSS
CLaSS利用直接在肽的z空间上训练的属性分类器,这些分类器可以捕获重要的属性信息(图3)。CLaSS通过假设属性条件密度因子为:来对指定的目标属性组合进行条件采样(图2c)。从基于贝叶斯规则的潜在z空间的模型和由属性分类器建模的中使用拒绝采样方法对进行近似采样。
2.3 CLaSS生成的AMP的特点
为了检查CLaSS生成的AMP序列与训练数据的同源性,作者进行了BLAST序列相似性搜索,结果表明生成序列与训练序列之间没有明显的相似性。CLaSS生成的AMP更加多样化,因为与训练序列或其片段相比,独特的(即在序列的集合中只发现一次)k-mers(k = 3-6)更加丰富(见补充图1)。
根据图4b-d和补充图1数据分析,CLaSS生成的AMP全局净正电荷和芳香度介于未标记和AMP标记的训练序列之间,而疏水性矩与已知AMPs相当。这些趋势意味着生成的抗菌素仍然是阳离子的,并且可以形成一个假定的两亲的α螺旋,类似于大多数已知的抗菌素。
图4:理化性质的比较
补充图1:CLaSS生成的AMP与AMP标记和未标记的肽的比较
2.4 计算筛选
为了筛选约90,000个CLaSS生成的AMP序列,首先使用一组独立的二元序列级分类器,对抗菌功能、广谱疗效、存在二级结构和毒性进行筛选。然后对通过该筛选的163个候选物进行处理,对多肽-膜相互作用进行粗粒度的分子动力学模拟。
2.5 湿实验表征
将通过筛选得到的20个AMP序列在湿实验室中进行了抗菌活性测试,其中有两个序列,YLRLIRYMAKMI-CONH2(YI12,12个氨基酸)和FPLTWLKWWKWKK-CONH2(FK13,13个氨基酸)被确定为最好的。
2.6 序列相似性、结构和机制以及抗性分析
表1:YI12和FK13的抗菌活性和毒副作用
图5:原子模拟和电阻捕获研究
3
结论
文章中,作者提出了一个完全自动化的计算框架,结合可控的生成式建模,深度学习和物理学驱动的学习,可用于从头设计广谱强效和选择性AMP序列,并且通过实验验证了这些序列的广谱功效和毒性。其中,提出的CLaSS是一种通用方法,它适用于各种控制生成任务,并能同时处理多个控制。它不需要对潜在间进行任何优化,因此该方法实施简单、快速、高效、可扩展、可重用性高,仅需要简单的预测器训练便可添加一个新的约束条件。作者表明未来将会探索额外的相关约束条件的影响,将CLaSS应用在其他受控分子设计任务中。并且AI模型将在一个主动学习框架中使用模拟/实验的反馈,以迭代的方式进一步优化。
参考文献
Das, P., Sercu, T., Wadhawan, K. et al. Accelerated antimicrobial discovery via deep generative models and molecular dynamics simulations. Nat Biomed Eng (2021).
https://doi.org/10.1038/s41551-021-00689-x
肽序列数据
https://github.com/IBM/controlled-peptide-generation
代码
https://github.com/IBM/controlled-peptide-generation