2022年5月6日,Nat Biotechnol发表文章,评述了3月份发表在该期刊上的来自中国科学院微生物研究所王军和陈义华等人的研究工作。
人工智能在人类肠道微生物组中发现了候选肽类抗生素。
抗生素耐药性是人类面临的十大公共卫生威胁之一。抗菌肽 (AMPs) 是通常长度为8-50个氨基酸的小蛋白质,可提供对病原体的防御作用,是传统抗生素的替代品,因为它们不太可能引起耐药性。然而,这些分子中只有少数用于临床,有几十个正在进行临床试验和临床前研究。使用微生物组数据的高通量方法扩大了对有希望的AMPs的搜索范围。
王军和陈义华等人描述了一种确定新的抗生素的巧妙的人工智能策略。该研究采用自然语言处理工具有效地挖掘大型肠道微生物组数据集,以寻找具有抗菌特性的肽 (图1)。该方法有助于新兴的研究,使抗生素发现领域超越了依赖艰苦的试错实验的传统方法,进入了一个可以通过计算机快速发现分子的新时代。
图1:人工智能使肠道微生物组中的抗生素发现成为可能
一个由自然语言处理和深度学习组成的计算平台被用来探索人类肠道微生物组数据集,寻找新型肽类抗生素。
此前,一些研究小组正在使用机器学习来发现新的抗生素,其方法包括预测性模型和生成性模型。例如,生成模型已被用于设计在动物身上具有疗效并显示低毒性的新型AMPs。深度学习和其他计算方法已经成功地重新利用了以前未被认识到的具有抗生素活性的分子,并发现了在人体中具有抗微生物特性的肽类。最后,研究人员已开发出令人兴奋的比较基因组学管道,尝试让人类微生物组作为生物活性肽和微生物蛋白的来源。
这项工作将计算工具与体外和相关动物模型中的广泛实验验证相结合。作者通过大规模的元基因组学数据搜索,确定与已知AMPs相似的序列。为了设计一个识别AMP的管道,作者结合了几个基于深度学习的自然语言处理模型 (例如,循环和注意神经网络),他们优化了这些模型的性能。作为训练数据,作者使用了来自蛋白质序列数据库UniProt的大量非AMP数据集,增加了模型训练的数据集,同时最大限度地减少了假阴性的可能性。
研究共搜索了4409个合格的代表基因组,并从长度为6至50个氨基酸的表达蛋白中选出了2349个候选AMPs。接下来,作者调查了基因表达数据、相对丰度和与选定的细菌类群的关联,以删除不可能的AMPs,这一步骤确定了241个肽序列。一旦确定了这些候选的肽,作者就用化学方法合成了这些肽,并在体外评估了它们的抗菌活性。
研究工作流程示意图
在这项研究中,我们从收集序列开始构建训练和测试集,然后构建和优化神经网络模型以形成AMP 预测管道 (左)。然后,我们挖掘了潜在AMP的宏基因组和宏蛋白质组学数据,使用候选AMP和细菌之间的相关网络分析进一步过滤,产生用于化学合成和体外验证的候选AMP (中)。从初步筛选中选出有希望的候选AMP,并进一步进行针对MDR细菌的功效测试、细菌性肺部感染动物模型的体内实验和机制分析 (右)。
在这241条肽中,作者总共化学合成了216个新肽,其中至少181个被证实具有抗菌活性 (83.8%)。然后,作者评估了这181条肽与训练集中已知的AMP序列的相似性,发现最高的相似性只有61.4%,大多数序列的相似性低于40%。这一分析表明,他们发现的肽具有与传统AMP不相关的序列。
这种方法和其他计算方法的一个潜在局限性是它们有偏向的倾向。例如,UniProt数据库中大量的肽序列以蛋氨酸开始,由起始密码子AUG指定,可能与生物活性无关,这可能使训练出现偏差,因为机器学习方法在考虑到蛋氨酸的情况下会建立高准确性的预测器。额外的偏差可能会进一步限制旨在发现药物的机器学习工作。然而,作者合成并通过实验验证了多肽的抗菌活性,表明尽管存在潜在的偏差,他们的机器学习模型仍然能够有效地发现AMPs。未来的工作应着重于生成强大的训练集和最佳模型,并对所有或大多数在计算机上预测和生成的序列进行实验验证。
作者选择了对耐药性细菌 (包括ESKAPE病原体) 具有最强抗菌活性的11个AMPs进行深入的特征分析。在这11个序列中,有7个来自于人类肠道微生物组中的一个主要菌属,这表明该菌属可能是AMPs的一个优秀来源。Peptide c_AMP1043显示出最强的抗菌活性,对所有测试的临床分离物的最小抑制浓度<10μM,证明是后续研究中最令人兴奋的主要候选物。对这11种肽的作用机制研究表明,该研究开发的管道可能能够捕获具有不同作用机制的AMPs,尽管这不是所用算法的输入特征。这些结果表明,所使用的计算方法可能揭示出数据集中有趣的隐藏特征。
开发新药时的一个关键要求是目标细菌物种不对药物产生耐药性。为了评估细菌对c_AMP1043的潜在耐药性,作者将大肠杆菌菌株DH5α连续暴露于该肽30天,但没有检测到明显的耐药性。
总的来说,作者展示了三种优选的肽在细胞毒性和溶血试验中的低毒性,并验证了这些药物在小鼠模型中对肺炎克雷伯氏菌肺部感染的抗感染效力,显示肽治疗在体内可将细菌载量减少10倍以上。
作者提出了一种基于自然语言处理和深度学习的人工智能方法,探索复杂的元基因组信息,这些信息可以作为新型肽类抗生素的来源。像这里描述的平台可能会改变抗菌研究,使之有可能在创纪录的时间内发现更多种类的潜在抗生素。
正如这项研究所表明的,人工智能方法为发现急需的抗菌药物带来了希望,这可以帮助补充我们枯竭的武器库。
参考资料
de la Fuente-Nunez, C. Antibiotic discovery with machine learning. Nat Biotechnol (2022). https://doi.org/10.1038/s41587-022-01327-w
Ma, Y., Guo, Z., Xia, B. et al. Identification of antimicrobial peptides from the human gut microbiome using deep learning. Nat Biotechnol (2022). https://doi.org/10.1038/s41587-022-01226-0
--------- End ---------