深度学习在蛋白质结构预测和蛋白质设计方面的应用日益增多,设计出的蛋白质已进入临床试验阶段,甚至获得了美国FDA的批准。机器学习在加速设计过程、减少实现功能性蛋白质所需的实验测试变体数量方面有着巨大的潜力。随着几种生成方法的到位,该领域正朝着利用这些方法、开发设计型蛋白质的方向发展,应用领域涵盖材料科学、治疗和诊断,以及将蛋白质与电子电路集成。
自AlphaFold2和RoseTTAFold发布以来,这项技术取得了多大进展?我们对蛋白质结构的基本原理有了哪些了解?Nature Biotechnology的Anne Doerr对该领域的专家--华盛顿大学蛋白质设计研究所所长David Baker、麻省理工学院西蒙斯数学教授Bonnie Berger、哥伦比亚大学助理教授Mohammed AlQuraishi进行了采访。
1、我们从AlphaFold2和RoseTTAFold等工具中学到了哪些关于蛋白质折叠原理的知识?
David Baker:深度神经网络非常擅长解决复杂问题,我们当然也学到了大量关于蛋白质结构的知识,但这些网络并不擅长让你从物理角度洞察发生了什么。我认为它们在结构生物学和蛋白质设计方面发挥了巨大作用,但在基本原理方面--这也是人们不太喜欢神经网络的原因之一--我们学到的东西并不那么明显。
Mohammed AlQuraishi:就从这些模型中提取的直接知识而言,很遗憾,我们并没有学到多少新东西。我喜欢把AlphaFold2视为一种新型显微镜。我们可以用它来(可靠地)预测蛋白质的结构,这有助于我们更广泛地理解,因为我们有更多的例子可以研究和学习,但它并不能直接帮助我们理解新的理论或模型。
造成这种局限性的部分原因是,作为一种机器学习模型,AlphaFold2可以识别许多统计模式,但并不一定能以我们易于理解的形式将其提炼出来。也许随着神经网络可解释性技术的发展,这种情况会有所改变,但我认为到目前为止还没有太大的进展。同样重要的是要记住,AlphaFold2(和RoseTTAFold)不是序列到结构的模型,而是MSA(多序列比对)到结构的模型。因此,AlphaFold2可以学习MSA和MSA片段与结构之间的相关模式,而这些模式并不直接基于序列。事实上,对于足够深度的MSA,先前的无监督方法已经表明,结构可以直接从协同进化信号中"读取"出来,这意味着对于这类 MSA,根本不需要学习物理学模型(不过,对于浅层MSA,AlphaFold2似乎确实有可能学习到这样的模型)。
2、单序列深度学习方法是了解蛋白质如何折叠的一种方法吗?您认为单序列方法在哪些应用中最有用?这些方法有哪些局限性?
Bonnie Berger:是的,单序列深度学习方法将是理解蛋白质折叠的下一步。当然,蛋白质不需要知道它的同源序列就能折叠成它的原生结构。目前的大多数方法都依赖于排列,因此无法预测单个氨基酸突变等微妙变化及其对蛋白质结构和功能的影响。我相信建立在蛋白质语言模型(如ESMFold和OmegaFold)基础上的单序列方法将克服这些局限性。
David Baker:与单序列和多序列相比,获得基本原理的问题更多是深度神经网络的问题。我们主要研究设计蛋白质,用RoseTTAFold和AlphaFold从单一序列折叠出的设计蛋白质非常好,因此这些方法显然能够利用单一序列信息准确预测结构。我认为,获得物理原理的困难在于网络有数以亿计的参数,而如何从这些参数值中提取物理原理并不明显。
我的基本感觉是,AlphaFold和RoseTTAfold在多个序列上的训练比在单个序列上的训练更有优势,这不仅是因为它们使用协方差信息作为序列中物理信息的辅助信息,还因为它们有更多的序列数据作为训练对象。我认为,即使是那些基于单序列的方法,单序列方法也很难达到当前方法的性能。对于没有同源物或同源物很少的复杂原生蛋白质,单序列方法最有用。现在已经没有那么多同源物了。其局限性在于训练数据量较少,因为每个晶体结构只有一个序列,而不是许多序列。
Mohammed AlQuraishi:原则上,单序列方法可能有助于了解蛋白质是如何折叠的,但到目前为止还没有实现。部分原因是现有的单序列方法,如我实验室的RGN2和Meta的ESMFold,都依赖蛋白质语言模型进行预测。这些模型在解释模型所学内容时引入了另一层复杂性,并隐含了共同进化信息,因此在一定程度上提供了与基于MSA的方法所利用的相同类型的捷径。除此以外,事实上,作为一个学习型神经网络,模型不会以人类可理解的形式揭示其学习到的知识。必须付出明确的努力才能真正提取出这些知识,而这一点还有待努力。
在应用方面,最令人兴奋的应用将来自蛋白质进化历史不长或进化速度较快的领域。抗体就是一个明显的例子。另一个例子是快速进化的病毒蛋白质,其序列或结构的微小变化就可能赋予其新的致病功能,而我们需要对这些变化进行结构建模。最后,蛋白质设计是另一个显而易见的领域。到目前为止,现有的基于MSA的工具在蛋白质设计方面还算有效,因为大多数设计的蛋白质都是高度刚性的。但随着我们开始设计更加灵活和动态的蛋白质,我预计目前基于MSA的方法将开始失效。
现有单序列方法的主要局限是依赖于蛋白质语言模型,这使得它们间接依赖于协同进化。我猜测这些方法的未来将是在不依赖蛋白质语言模型的情况下预测结构,至少不是目前这种蛋白质语言模型。
3、最近取得成功的主要动力是什么:训练数据的增加、新的深度学习架构还是更强的计算能力?下一个重要步骤是什么?
Bonnie Berger:这三者都很关键:训练数据、类似transformer的模型和GPU计算能力的增长。然而,还有很多潜在的下一个重大步骤或应用:(1)更先进、更精确的模型,如单序列方法;(2)功能性或治疗性蛋白质的设计,如抗体;(3)蛋白质相互作用系统的设计,如级联通路等。
Mohammed AlQuraishi:迄今为止,主要的推动力是蛋白质语言模型,这种模型学习如何有效地将所有已知的蛋白质序列空间压缩到一个神经网络模型中。这些模型很有效,但也有上述局限性。我猜测新的创新将来自于新的架构和更强的计算能力,这将推动基于机器学习的蛋白质结构预测工具更多依赖其学习到的物理知识来预测结构。
David Baker:我认为这是一个综合因素。蛋白质数据库(PDB)规模庞大,这么多优秀的科学家投入了大量时间和金钱来解决所有蛋白质结构问题,而且还将它们整理成了一个具有通用格式的数据库,这确实令人惊叹。拥有这个数据库至关重要,当我们开始考虑在更复杂的生物数据上训练深度学习模型时,首先遇到的问题之一就是没有多少像这样的好数据库。因此,数据库和计算能力都非常重要,因为训练这些模型的成本非常高昂。架构也是创新的;在蛋白质结构预测和蛋白质设计方面,已经有很多方法得到了发展。你需要将三者结合起来。
4、如何将结构预测与蛋白质设计相结合?如何从结构到功能?
Mohammed AlQuraishi:可以说,蛋白质设计和结构已经结合在一起了。例如,RFdiffusion依靠预训练的RoseTTAFold模型作为起点,训练基于扩散的设计模型。在我们的Genie模型中,我们只是从头开始训练一个用于设计的模型,但我们正在探索同时解决这两个问题的架构。事实上,如果条件变量是蛋白质本身的序列,那么结构预测可以被视为一种有条件的蛋白质设计。
功能则要棘手得多,因为它的定义并不明确。例如,蛋白质的功能可能因细胞类型和生物体而异。也就是说,它对环境高度敏感。我们可以建立,而且人们已经建立了从结构预测分子功能的模型,特别是如果有高度定义的方法,例如酶。理想情况下,我们将开始把蛋白质设计的重点从针对特定结构转向针对特定功能。但背景问题将是关键。
David Baker:我认为这是两个不同的问题。结构预测现在确实与蛋白质设计紧密结合在一起:我们开发的RFdiffusion方法基本上就是RoseTTAFold结构预测方法,但现在用于生成新的蛋白质结构,而不是预测现有蛋白质的结构。它本质上是同一个网络,只是针对蛋白质设计而不是结构预测进行了微调。我想说的是,蛋白质设计--至少是我们一直在做的蛋白质设计工作--与结构预测的进步息息相关。我们能够利用为结构预测而设计的网络,并为设计而对其进行微调。
如何从结构到功能--这又回到了我之前说过的,最大的限制可能是有良好注释的数据库。我认为这很难,因为现在很多功能都是根据序列同源性来确定的。这样做的问题是,你的功能预测并不比基于同源性的功能预测更准确。我认为,如果有良好的、详细的、基于结构的、超越同源性的功能分类数据库,那么使用深度神经网络等方法从结构预测功能就会变得简单明了,或者说简单得多。但你需要大量准确的训练数据,这就是我认为的问题所在。
5、端到端学习的优势是什么?如何将机器学习与基于物理的方法结合起来?
Bonnie Berger:早期,为了降低问题的复杂性,人们常常把蛋白质折叠问题分解成几个独立的步骤或子问题。虽然这使得每个子问题都更容易解决,但多个步骤中预测误差的累积会导致预测不那么准确。端到端学习克服了这一局限,它将所有模块融合在一起,并允许将最终预测误差传播回每个模块,从而校准这些预测误差,使预测更加准确。这种方法已经在计算机视觉、语音识别和许多其他机器学习应用中得到了测试和验证。
David Baker:我认为端到端学习的最大优势在于,当你拥有一个网络时,你要根据损失函数来训练它做某些事情。如果你训练它做你想做的事,比如说,从序列到结构(在结构预测的情况下),或者从功能描述到设计的蛋白质(在蛋白质设计的情况下),那么网络就会真正学会你想让它学会的东西,而且你还能以最准确的方式进行训练和测试。例如,如果从序列到结构,第一代深度神经网络预测的是距离图,问题在于距离图给出的是Cα残基之间的距离,然后你可以据此构建三维结构。但目前这一代预测的三维结构带有坐标,所以你可以在原子坐标层面评估准确性,这才是你真正想要的。端到端学习的优势在于,你可以得到你想要的东西,并训练网络做你想做的事情,这也是另一种说法,即损失函数恰好超过了最终结果的质量。
神经网络仅用于快速逼近量子化学计算。这已经很强大了。肯定还有进一步研究的空间,但我认为还没有发生,这并不像我预想的那么容易。深度学习方法的问题在于你需要大量高质量的训练数据,而你可以想象,当你拥有物理知识时,你可以将其融入网络,这样你就不需要那么多数据了。我想说的是,如何做到这一点仍然是一个挑战。举例来说,我们把罗塞塔能量函数放到了RoseTTAFold中,但这并没有真正起到作用。我认为这是一个重要的研究问题,尤其是在低数据机制下--比如说,非经典氨基酸。其中一个例子是RoseTTAFold-all-atom,它可以模拟蛋白质与小分子、共价修饰和核酸的相互作用。在这方面,数据量是有限的,我们必须想办法把物理信息包括进来,使其精确度大大提高。
Mohammed AlQuraishi:端到端学习允许针对相关任务优化机器学习模型的所有组件。例如,在基于MSA的结构预测器中,模型会学习调整其每一个参数,以便从MSA中提取尽可能多的信息,从而完成结构预测任务。另一方面,如果在将MSA输入端到端模型之前对其进行预处理(在AlphaFold2之前通常是这种情况),一些对预测任务有价值的信息可能会在预处理过程中丢失,无法再供模型学习。
基于物理的方法所面临的挑战是,虽然它们可以被微分,但计算成本也非常高昂。因此,简单地将物理模拟器嵌入机器学习框架的天真方法往往并不实用。我认为,在机器学习框架内有效嵌入物理先验和物理模拟的方法将会取得进展。
6、我们看到,最近在以无监督或半监督方式使用大规模训练数据,然后进行微调或迁移学习方面取得了进展。高度特定问题的数据集将在专业蛋白质设计中发挥重要作用,还是说您认为未来将出现更大规模的无监督方法,从而能够很好地概括专业任务?
Mohammed AlQuraishi:我认为我们将继续看到两者的结合。当数据丰富时,通用基础模型非常有用,因为它们能够捕捉问题的全部普遍性,就像AlphaFold2在蛋白质结构预测方面所做的那样。不过,在一些领域,数据显然会继续受到固有的限制,例如小分子或非天然氨基酸的结构数据。对于这些系统,我希望针对特定问题的数据集至少在微调基础模型方面仍然有用。
Bonnie Berger:这很难说。蛋白质科学中的问题往往非常具体。根据我们目前的观察,在特定问题数据集上进行微调似乎是最有效的方法。然而,随着模型规模的扩大,微调的计算和内存占用成为许多研究小组的障碍。自然语言处理领域的模型规模也出现了类似的爆炸式增长,这些挑战已经通过参数高效微调方法得到了解决。我的实验室与微软研究院合作,最近将这些方法应用到了蛋白质-蛋白质相互作用预测中,发现效率提高了几个数量级,而准确性却没有降低,有时甚至更高。
7、拥有数十亿参数的机器学习模型并不少见。如果需要越来越大的模型才能达到最先进的性能,那么研究是否会局限于少数几家大公司?
David Baker:我认为,联邦政府或公共资金来源必须承认进行这些计算的成本,并投入资源,使学术团体有可能训练大型模型。如果有了更精确的模型,就意味着我们可以更快地取得科学进步,你需要做的实验也会更少,那么即使你在计算能力上投入了大量资金,在其他研究领域节省下来的资金也会远远超过你的投入。这可能需要政府从文化上改变对科学资源的看法。我认为,只有私营公司才能开发出最好的科学模型是很危险的,因为在很多情况下,如果私人公司想将其所做的事情商业化,就有可能不分享这些模型,这就会造成非常危险的局面。我们开发RoseTTAFold的原因之一是,当时还不完全清楚AlphaFold会发生什么,但很明显,全世界都需要获得真正准确的结构预测工具。我认为,你可以看到DeepMind发布AlphaFold代码所产生的巨大影响。
世界各国政府需要介入,这样学术团体才能在许多科学领域训练出非常庞大的模型。这将是未来的发展方向,如果只能在私人公司中训练大型模型,这对科学来说将是非常非常危险的。
Mohammed AlQuraishi:不幸的是,这是一个严重的问题。到目前为止,生物机器学习模型在复杂性方面比文本和视觉模型落后了几年,这使得学术实验室和较小的公司能够继续有意义地参与研究事业。但正如我们在GPT等大型语言模型中看到的那样,这一领域几乎完全被大公司所垄断。鉴于人工智能在科学领域的重要性,我希望政府和慈善组织能投入更多资源,提供大规模计算资源,比如Chan Zuckerberg Institute最近宣布计划为学术研究建立一个1000GPU集群。
Bonnie Berger:在自然语言或图像处理领域,这可能是对的。不过,在蛋白质科学领域,目前的云计算基础设施已经足够强大,足以支持在蛋白质数据上训练大型语言模型。由于蛋白质用于微调的下游数据仍然相当有限,学术界和小公司目前有机会或有能力训练拥有数十亿参数的模型。
8、我们在同时优化功能、免疫原性、稳定性、翻译后修饰等多项特性方面做得如何?
Mohammed AlQuraishi:目前还不是很好,但工具正在迅速改进。目前,从结构或几何角度定义的特性要比生物物理特性更容易优化,因为后者需要功能数据。
David Baker:我认为生成模型只需要有一个损失函数,或以满足所有这些属性的方式进行引导。现在,有很多不同的方法来指导射频扩散等更高层次的标准。如何更好地做到这一点,是一个非常有趣的研究领域。其中一些特性相对来说比较好理解。我们发现,设计出来的蛋白质几乎总是非常稳定,而且很少有免疫原性。只要设计出结构紧凑、稳定、可溶性高的蛋白质,就能避免重大的免疫原性问题。这个问题的答案有两部分:一部分是实际的结构--如何在深度学习过程中做到这一点;另一部分是如何对这些特性进行编码。
9、在蛋白质设计的生物技术应用方面,有哪些"低垂的果实"?
Bonnie Berger:与蛋白质复合物相比,我们目前更擅长预测与单链蛋白质结构的结合。在设计与小分子的相互作用时,首先最容易瞄准的是具有口袋和活性位点的单链蛋白质。针对新材料的结构蛋白质设计,只要整体确认是正确的,就能对微小变化保持稳定,这也可能是最早的应用之一。
Mohammed AlQuraishi:蛋白质结合剂是其中之一。蛋白质融合或消融现有蛋白质是另一种。它们既可用于治疗,也可用于化学或工业和农业。
David Baker:现在有很多不同的应用。我们有第一种全新设计的药物已投入临床--这是一种COVID疫苗,已在多个国家获批使用。我们有巨大的机会来制造更智能的疗法,这远远超出了抗体及其特异性的范畴。在传感和诊断方面,也有巨大的应用空间,而不仅仅局限于天然存在的蛋白质。除医学外,在可持续发展、能源和环境问题方面,也有大量应用可用于分解有毒化合物、固定二氧化碳的方法,以及通过人工合成光合作用系统捕获太阳能的新途径。最后,在技术领域,有一个非常有趣的领域是将生物学与电子学相结合,设计出能够感知嵌入电子电路的生物分子的蛋白质。
10、某些蛋白质是否比其他蛋白质更适合作为靶标,为什么?
David Baker:对于结合剂设计来说,情况正在发生变化,因为有些我们认为非常困难的目标,现在通过射频扩散变得很容易。我们有一个有趣的过渡点,几年前我们开发了基于物理的方法来重新设计蛋白质结合剂。然后,在我们开发出这些方法一年后,我们又提出了更好的深度学习方法--RFdiffusion,在这种方法中,我们可以构建出像手戴手套一样贴合目标的结构。不过,带电量非常高、可用的相互作用表面不多的目标仍然很难。例如,膜蛋白只有一个小环从膜中出来,带电量很高,仍然是一个非常难对付的目标。
Mohammed AlQuraishi:这取决于应用。例如,对于蛋白质结合剂来说,小的结合表面和极性较弱的表面更容易成为目标。
11、要将这些机器学习方法应用于设计适当的蛋白质(药物、材料),需要做些什么?
Bonnie Berger:这些方法已经可以应用于药物发现流水线的早期阶段,即寻找新的或新颖的lead,并通过传统方法进行进一步测试的阶段。例如,我们最近的研究表明,预测药物-靶点相互作用(DTIs)的语言模型与对比学习相结合,可以提高区分药物与诱饵(ConPLex)的预测能力,深度学习方法也有助于预测多种药物的副作用干扰。我们甚至可以通过可证明安全的神经网络(Secure-DTI),将我们的知识与保护隐私的药理学协作汇集起来。然而,我们距离了解如何预测哪些药物会在研发过程中失败(即哪些在动物模型中很有前景的药物会通过临床试验)还有很长的路要走。在这方面,我认为应专注于特定类别的DTI,缩小搜索范围,然后与制药公司或医院合作,完成预测。
Mohammed AlQuraishi:我相信我们已经做到了。最终的挑战将是从设计具有特定分子功能的蛋白质到了解它们如何在人和生物体内运作,在这一过程中,生物学的全部复杂性开始成为限制性步骤。因此,我预计非治疗性应用可能会更早被采用。
David Baker:我认为,在设计可作为药物的蛋白质方面,我们已经取得了进展。我们正在开展大量工作,利用蛋白质设计深度学习方法来设计小分子药物。我认为,在设计蛋白质疗法方面,我们已经做到了。它们仍然需要经历所有相同的临床开发过程。对于收养性细胞疗法,我认为有很多方法可以让设计的蛋白质变得非常强大。
参考资料:
https://nature.66557.net/articles/s41587-023-02111-0