2024年5月23日,Nature发表文章Who will make AlphaFold3 open source? Scientists race to crack AI model,讨论了AlphaFold3源代码开放的问题。
谷歌DeepMind本月在Nature上发布了其革命性蛋白质结构预测人工智能的最新版本AlphaFold3,但却出现了一个小插曲。与之前的版本2不同,该论文没有附带描述这一进展的计算机代码。
几天后,这家总部位于伦敦的公司承诺在年底前发布代码。人工智能模型可以预测蛋白质以及其他分子的结构,包括潜在的新药。其他科学家正在尽力破解DeepMind发布的网络版AlphaFold3,以规避其局限性。
纽约哥伦比亚大学的计算生物学家Mohammed AlQuraishi说:“如果对我们进行药物发现和其他与人类健康相关的工作至关重要的能力最终被禁锢,那将是一件糟糕的事情。”他的'OpenFold'团队已经开始编写开源版的AlphaFold3 ,并希望在今年完成。
科学家们感到失望
DeepMind最初保留AlphaFold3的代码以及5月9日在Nature发表的文章激怒了许多科学家。Nature的政策规定,与研究相关的代码通常应该公开,但也承认可能会有限制。
加州大学旧金山分校的计算结构生物学家Stephanie Wankowicz和其他9位科学家于5月11日共同写了一封致Nature的公开信,信中写道:“这不符合科学进步的原则,科学进步依赖于社区评估、使用和发展现有工作的能力。”
Nature在5月22日发表的一篇社论中说,它欢迎AlphaFold3的发表所引发的对话,并就如何鼓励科学的开放性征求读者的意见。它补充说,它的政策支持开放科学,但也承认私营部门为全球大多数研究提供资金,而这些工作产生的许多发现仍然是专有的。Nature认为,重要的是期刊要与私营部门合作,并与私营部门的科学家一起工作,这样他们就可以将研究成果提交同行评审和发表。该期刊表示,DeepMind发布代码后,它将对论文进行更新。
DeepMind创建了一个网站,研究人员可以通过该网站访问该工具,以代替从训练AlphaFold3中获得的代码和参数(称为模型权重)。但这个AlphaFold3服务器是有限制的:它只能用于非商业研究,而且无法获得与可能的药物结合的蛋白质结构。介绍AlphaFold3的论文还包含详细的“伪代码”,概述了模型的工作原理。
重新训练AlphaFold
宾夕法尼亚州费城Fox Chase癌症中心的计算结构生物学家Roland Dunbrack说,他为Nature撰写的AlphaFold3论文进行了同行评审。AlphaFold2代码的发布扩大了它的影响范围,使研究人员能够对该工具进行调整和改进。公开信的共同作者之一Dunbrack说:“我之所以希望获得可下载的代码,是因为如果我和其他人都能获得这些代码,科学研究就会发生。”
5月13日,在强烈反对开始几天后,DeepMind做出了改变,宣布将在6个月内提供AlphaFold3代码和模型权重供学术界使用。
但科学家们表示,这一版本的AlphaFold3是否具备全部功能,尤其是结合潜在药物分子或配体预测蛋白质结构的能力,仍然存在疑问。Dunbrack说:“我不认为他们会给我们提供任何配体的能力。AlQuraishi团队正在开发的OpenFold3模型不会有这样的限制,也不会对商业用途有任何限制。”
科学家们追求AlphaFold3的开源版本还有其他原因。AlQuraishi说:其中一个原因是可以重新训练模型,以更好地模拟蛋白质与潜在药物之间的相互作用。他的团队使用与DeepMind相同的公开数据集重新训练了AlphaFold2版本。但AlQuraishi预计,许多制药公司都可以获得大量通过实验确定的蛋白质与可能药物结合的结构,它们将热衷于拥有一个可以用自己的专有数据重新训练的AlphaFold3版本,这可以提高模型的性能。
试图了解AlphaFold3秘密的科学家不止AlQuraishi一个。西雅图华盛顿大学的计算生物物理学家David Baker想看看,他的团队开发的名为RoseTTAFold-All-Atom的开源蛋白质和化学预测模型能应用什么方法。
旧金山的独立软件工程师Phil Wang已经开始通过众包的方式复制DeepMind的最新模型。Wang也拥有医学学位,他已经开发了数十种人工智能模型的开源版本,包括图像生成工具DALL-E。Wang过去曾获得过一些公司为他的工作提供的资金支持,但目前还没有收到开放AlphaFold3的邀请。
黑客版本
Wang说,他的三人团队有望在一个月内完成描述AlphaFold3模型的代码。但最耗时的步骤是在实验确定的蛋白质结构和其他数据集上训练模型,AlQuraishi 说:“代码是迄今为止最简单的部分。这只占工作量的5%。”
剑桥麻省理工学院的进化生物学家Sergey Ovchinnikov说:“这也很可能证明是昂贵的。据他估计,要像DeepMind那样训练AlphaFold3,可能需要花费100万美元以上的云计算资源,尽管有可能在不影响性能的前提下降低成本。”
完全开源版本的AlphaFold3将使研究人员能够更好地了解该模型的工作原理,并扩展其能力。不过,一些科学家已经在试图利用 AlphaFold3 服务器来实现这一目标。Ovchinnikov说:“网上已经出现了一些黑客行为。”例如,为了获得嵌入细胞膜的蛋白质的更精确模型,它们在细胞膜上与脂肪分子相互作用。另一个服务器黑客揭示了一种蛋白质的另一种形状。
AlQuraishi希望,推动开发AlphaFold3的开源版本将成为学术界的一个“警示”,让他们认识到依赖DeepMind等技术公司开发和分发AlphaFold等工具的危险性。他说:“他们这样做很好,但我们不应该依赖它。我们需要创建一个公共部门的基础设施,以便能够在学术界做到这一点。”
参考资料:
https://doi.org/10.1038/d41586-024-01555-x