简读分享 | 蒋一 编辑 | 龙文韬
论文题目
Controllable protein design with language models
论文摘要
蛋白质序列在本质上类似于自然语言:氨基酸以多种组合方式排列,形成承载功能的结构,就像字母构成单词和句子承载意义一样。因此,在整个自然语言处理(NLP)的历史中,它的许多技术被应用于蛋白质研究问题。Transformer预训练模型的实施使文本生成具有类似人类的能力,包括具有特定属性的文本,如风格或主题。受其在NLP任务中取得的巨大成功的激励,预计专用Transformer将在不久的将来主导自定义蛋白质序列的生成。对蛋白质家族的预训练模型进行微调,将使它们能够用新的序列来扩展它们,这些序列可能是高度不同的,但仍有潜在的功能。控制标签的结合方式,如细胞区系或功能,进一步使新型蛋白质功能的可控设计成为可能。此外,最近的模型可解释性方法将使我们能够解决”black box“问题,增强我们对蛋白质folding原理的理解。早期的举措显示了生成性语言模型在设计功能序列方面的巨大潜力。作者认为,使用生成性文本模型来创造新的蛋白质是一个很有前途的、在很大程度上未被开发的领域,并讨论了它对蛋白质设计可预见的影响。
论文链接
https://www.nature.com/articles/s42256-022-00499-z