Nature | 生成式AI模型设计自然界中未发现的蛋白质

2023-11-27 14:07:13 浏览数 (1)

大家好,今天给大家分享一篇近期发表在Nature上的研究进展,题为:Illuminating protein space with a programmable generative model。该工作的通讯作者是马萨诸塞州萨默维尔Generate Biomedicines公司的Gevorg Grigoryan博士。

蛋白质是生命活动的执行者,地球生命诞生的30亿年时间里进化产生了种类繁多的蛋白质分子,但自然界中还存在大量未被探索的蛋白质。这一巨大潜力为从头设计蛋白质带来了无限可能,但是如何有效地搜索可设计蛋白质结构的空间仍是当前面临的一个巨大挑战。

作者团队开发了一种名为Chroma的生成式人工智能(AI)模型,该模型建立在扩散模型(Diffusion Models)和图神经网络(Graph Neural Networks)的框架上,能够从头生成高质量、多样化和创新的蛋白质结构。他们实验证实了从Chroma产生的310种蛋白质可以高度表达、折叠并具有良好的生物物理特性 。

Chroma通过引入新的扩散模型、图神经网络架构和基于当代生成建模和生物物理知识原理的采样算法,实现了高保真、高效的蛋白质生成。扩散模型通过学习逆转“噪声”过程来生成数据,随机图神经网络架构具有远程连通性,并进行次二次缩放,处理和更新分子坐标。他们还建立了一个扩散调节器框架,自动从硬约束和软约束的任意中采样,实现基元的组合。(图1)

图1. Chroma用于主链合成和全原子设计

作者团队生成大量蛋白质和蛋白质复合物的无限制样品(100,000个单链蛋白质和20,000个复合物)来表征由Chroma参数化的可能蛋白质的空间,结果表明无条件约束样品和天然蛋白质具有许多相似的特性,如α-螺旋和β-片在连接的褶皱中具有复杂的分层。接着他们对Chroma生成样品和PDB中蛋白质之间结构同源性的定量分析,结果表明该模型产生了自然界未发现的结构,且样品长度越长则与天然蛋白的差距越大。(图2)

图2. 蛋白质和蛋白质复合物无条件约束样品的高阶结构与再折叠

Chroma的一个重要特点是它的可编程性,作者团队将蛋白质特性被编译成一组采样调理器,使扩散过程偏向于这些特性,通过调节对称、亚结构和形状的约束实现了蛋白质的几何控制。(图3)

图3. Chroma的可编程性

接下来作者团队对蛋白质二级结构、折叠类和自然语言进行条件反射,展示了两个自然语言提示条件反射的例子,再次观察到样本和预期提示之间的一致性,证明了Chroma能够通过自然语言提示直接获取所需的蛋白质特征和属性,可以降低功能条件生成的难度,只需解决给定结构的功能构建准确分类器的问题。(图4)

图4. 蛋白质结构分类器和描述模型使采样过程偏向于指定的属性

最后,作者团队对进行了实验验证,对310个由Chroma生成的蛋白质进行了实验表征,结果显示,这些生成的、自然界不存在的蛋白质可以表达、折叠,并具有良好的生物物理特性。他们解析了其中2个生成的蛋白质(UNC_079和UNC_239)的X射线晶体结构,结果显示,观察到的结构与预期设计高度匹配(均方根误差分别为1.1Å和1.0Å),这表明了用Chroma生成蛋白质结构是可行的。 (图5)

图5. Chroma设计蛋白的实验验证

综上,作者团队开发了生成式AI模型Chroma,在外部约束条件下从头设计蛋白质,这些约束条件涉及对称性、亚结构、形状,甚至自然语言提示。该模型创造了自然界中以前未发现的具有可编程特性的新型蛋白质,具有治疗潜力,并在实验室中取得了成功。这种蛋白质设计方法有望加速蛋白质材料的编程控制,促进材料科学和合成生物学的发展,进而造福人类健康。

作者:ZXY 审校:ZHS

DOI: 10.1038/s41586-023-06728-8

Link: https://doi.org/10.1038/s41586-023-06728-8

上一篇

0 人点赞