简读分享 | 蒋一 编辑 | 李仲深
论文题目
ProtGPT2 is a deep unsupervised language model for protein design
论文摘要
蛋白质设计的目的是建立为特定目的来定制新型的蛋白质,从而有可能解决许多环境和生物医学问题。最近在基于Transformer的架构方面取得的进展使得语言模型的实现能够生成具有类似人类能力的文本。在这一成功的激励下,作者描述了ProtGPT2,一个在蛋白质空间上训练的语言模型,它按照自然的原则生成新的蛋白质序列。生成的蛋白质显示出自然的氨基酸倾向,而无序预测表明,ProtGPT2生成的蛋白质中88%是球状的,与自然序列一致。蛋白质数据库中的敏感序列搜索表明,ProtGPT2序列与自然序列的关系很远,而相似性网络进一步证明ProtGPT2对蛋白质空间的未开发区域进行采样。对ProtGPT2序列的AlphaFold预测产生了具有体现和大循环的折叠良好的非理想化结构,并揭示了目前结构数据库中没有捕获的拓扑结构。ProtGPT2可以在几秒钟内就能生成序列,并且可以免费使用。
论文链接
https://www.nature.com/articles/s41467-022-32007-7