今天为大家介绍的是来自Rob Toews的一篇大模型讨论文。
像GPT-4这样的大型语言模型以其对自然语言的惊人掌握而席卷全球。然而,LLM的最重要机遇将涉及一种完全不同类型的语言:生物学的语言。在过去的一个世纪里,通过对生物化学、分子生物学和遗传学的研究进展,一个引人注目的主题浮现出来:生物学原来是一个可解读、可编程的系统,甚至在某些方面是数字化的。DNA仅仅使用四种变量——A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶)——对地球上每个生物的遗传指令进行编码。相比之下,现代计算系统使用两种变量——0和1——对全球的数字电子信息进行编码。一个系统是二进制的,另一个是四进制的,但两者在概念上有令人惊讶的重叠;两个系统都可以被正确地视为数字化的。
以另一个例子来说,每个生物体中的蛋白质由一维的氨基酸序列组成,并按特定顺序连接在一起进行定义。蛋白质的长度从几十个到几千个氨基酸不等,有20种不同的氨基酸可供选择。这也代表了一个可计算的系统,而语言模型很适合学习这种系统。正如DeepMind首席执行官/联合创始人Demis Hassabis所说:“从最基本的层面上来说,我认为生物学可以被看作是一个信息处理系统,尽管是一个非常复杂和动态的系统。就像数学被证明是物理学的正确描述语言一样,生物学可能会成为应用人工智能的完美领域。”
当大型语言模型可以获取大量信号丰富的数据并推断出超出任何人类吸收能力的潜在模式和深层结构时,它们的能力将达到最高水平。然后,它们可以利用对主题的精细理解来生成新颖、令人惊叹的复杂输出。例如,通过吸收互联网上的文本,像ChatGPT这样的工具已经学会了在任何可以想象的话题上以思慮深邃、细致入微的方式进行对话。通过吸收数十亿张图像,像Midjourney这样的文本到图像模型已经学会了根据需求产生创造性的原创图像。
蛋白质基础知识
将大型语言模型应用于生物数据,使它们能够学习生命的语言,将开启一系列可能性,使自然语言和图像相比几乎显得微不足道。在短期内,在生命科学中应用大型语言模型最引人注目的机会是设计新型蛋白质。蛋白质处于生命本身的核心。正如著名生物学家亚瑟·莱斯克所说:“在分子尺度上的生命戏剧中,蛋白质才是主角所在的地方。”蛋白质参与了几乎每一个在生物体内发生的重要活动:消化食物、收缩肌肉、将氧气输送到全身、攻击外来病毒。你的激素是由蛋白质构成的,你的头发也是如此。蛋白质之所以如此重要,是因为它们具有如此多样的功能。它们能够承担各种各样的结构和功能,远远超过任何其他类型的生物分子。这种令人难以置信的多功能性是蛋白质构建方式的直接结果。正如上面提到的,每个蛋白质由一系列被称为氨基酸的构建块组成,并按特定顺序串联在一起。基于这种一维氨基酸序列,蛋白质会折叠成复杂的三维结构,使其能够执行其生物功能。蛋白质的形状与其功能密切相关。举个例子,抗体蛋白质会折叠成适合精确识别和攻击外来物质的形状,就像一把钥匙插入锁中一样。再举个例子,酶是加速生化反应的蛋白质,其形状特异性地与特定分子结合,从而催化特定反应。理解蛋白质折叠成的形状对于理解生物体的功能以及生命的运作至关重要。仅凭一维氨基酸序列来确定蛋白质的三维结构在生物学领域已经成为半个多世纪以来的一个重大挑战。这被称为“蛋白质折叠问题”,困扰着一代又一代的科学家。2007年的一位评论者将蛋白质折叠问题描述为“现代科学中最重要但尚未解决的问题之一”。
深度学习与蛋白质:天作之合
在2020年末,一个名为AlphaFold的人工智能系统在生物学和计算领域迎来了一个重要时刻,它解决了蛋白质折叠问题。由Alphabet旗下的DeepMind团队开发,AlphaFold能够准确预测蛋白质的三维结构,精度达到了约一个原子宽度的范围,远远超过了人类曾经设计的任何其他方法。AlphaFold的重要性无法言过其实。长期从事蛋白质折叠研究的专家约翰·莫尔特(John Moult)形容得很好:“这是第一次通过人工智能解决了一个严肃的科学问题。”然而,当涉及到人工智能和蛋白质时,AlphaFold只是一个开始。AlphaFold并不是基于大型语言模型构建的,而是依赖于一种较早的生物信息学构造,称为多序列比对(MSA)。在多序列比对中,将蛋白质的序列与进化上相似的蛋白质进行比较,以推断其结构。多序列比对是强大的,正如AlphaFold所证明的,但它也有局限性。首先,它速度较慢且计算密集,因为需要参考许多不同的蛋白质序列来确定任何一个蛋白质的结构。更重要的是,由于多序列比对需要存在许多进化上和结构上相似的蛋白质才能推断新的蛋白质序列,对于所谓的“孤儿蛋白质”(即缺乏近似物的蛋白质),它的应用有限。这类孤儿蛋白质大约占已知蛋白质序列的20%。近年来,研究人员开始探索一种有趣的替代方法:使用大型语言模型而不是多序列比对来预测蛋白质结构。“蛋白质语言模型”是指那些不是基于英文单词而是基于蛋白质序列进行训练的大型语言模型。这些模型展示了一种令人惊讶的能力,能够直观地理解蛋白质序列、结构和功能之间的复杂模式和相互关系,例如改变蛋白质序列中某些氨基酸在特定部位会如何影响蛋白质折叠成的形状。蛋白质语言模型可以学习蛋白质的语法或语言学,如果这样说的话。在2022年末,Meta推出了ESM-2和ESMFold,这是迄今为止发布的最大、最复杂的蛋白质语言模型之一,参数量达到150亿。(ESM-2是语言模型本身,ESMFold是与之关联的结构预测工具。)ESM-2/ESMFold在预测蛋白质的三维结构方面与AlphaFold一样准确。但与AlphaFold不同的是,它能够根据单个蛋白质序列生成结构,无需任何结构信息作为输入。因此,它比AlphaFold快60倍。当研究人员希望在蛋白质工程流程中同时筛选数百万个蛋白质序列时,这种速度优势产生了巨大的影响。ESMFold还可以为那些缺乏进化上相似模拟物的孤儿蛋白质提供比AlphaFold更准确的结构预测。
设计新的蛋白质
所有存在于世界上的蛋白质只是理论上可能存在的蛋白质中极其微小的一部分。在这里蕴藏着机会。粗略地说一些数字:人体内存在的蛋白质总数,也被称为“人类蛋白质组”,估计在8万到40万个之间。与此同时,理论上可能存在的蛋白质数量约为10^1,300个,这是一个难以想象的庞大数字,远远超过宇宙中的原子数量。(需要明确的是,并非这10^1,300种可能的氨基酸组合都会形成生物可行的蛋白质。相反,只有其中的一部分会)在漫长的几百万年中,进化的曲折过程偶然发现了成千上万个这些可行的组合。但这只是冰山一角。
用Generate Biomedicines领先的蛋白质人工智能初创公司的联合创始人莫莉·吉布森的话来说:“自生命诞生以来,自然界已经对序列空间进行了采样,但几乎只相当于地球所有海洋中的一滴水。”我们有机会超越自然。毕竟,尽管自然选择是一个强大的力量,但它并不是无所不见的;它没有预先规划;它不会推理或自上而下地进行优化。它是随机和机会性的,传播那些恰好有效的组合。借助人工智能,我们首次能够系统地、全面地探索蛋白质空间中广阔而未知的领域,设计出以前从未在自然界中存在过的蛋白质,以满足我们在医疗和商业领域的需求。我们将能够设计出新的蛋白质治疗方法,应对人类疾病的各种问题,从癌症到自身免疫性疾病,从糖尿病到神经退行性疾病。超越医学,我们还能够创建新的蛋白质类别,具有在农业、工业、材料科学、环境修复等领域的革命性应用。
早期利用深度学习进行蛋白质设计的一些尝试并未利用大型语言模型。其中一个著名的例子是ProteinMPNN,来自华盛顿大学大卫·贝克(David Baker)的世界知名实验室。ProteinMPNN架构主要依赖蛋白质结构数据,以生成新的蛋白质。贝克实验室最近发布了RFdiffusion,这是一个更高级和更通用的蛋白质设计模型。顾名思义,RFdiffusion是使用扩散模型构建的,这是支持类似Midjourney和Stable Diffusion这样的文本到图像模型的人工智能技术。RFdiffusion能够生成新颖的、可定制的蛋白质“骨架”,也就是蛋白质的整体结构框架,然后在此基础上添加序列。像ProteinMPNN和RFdiffusion这样以结构为重点的模型是在基于人工智能的蛋白质设计领域取得的令人印象深刻的成就。然而,由于大型语言模型的变革能力,我们可能正处于该领域的新的突破点上。与其他蛋白质设计的计算方法相比,为什么语言模型是一个有希望的前进路径?其中一个关键原因是规模化。
规模化法则
人工智能领域最近取得的显著进展背后的一个关键因素是所谓的“规模化法则”:随着LLM参数数量、训练数据和计算能力的不断增加,性能的大幅提升几乎难以置信。在每一个数量级的规模增加中,语言模型展现了令人瞩目的、出乎意料的新能力,超越了小规模时的可能性。正是OpenAI坚持规模化原则,而非其他任何因素,使其在人工智能领域处于世界前沿。随着从GPT-2到GPT-3再到GPT-4等的推进,OpenAI建立了更大的模型,投入了更多的计算资源,并在比任何其他团队都大的数据集上进行了训练,释放出令人惊叹和前所未有的人工智能能力。
那么在蛋白质领域,规模化法则有何相关性呢?由于在过去二十年间基因测序的科学突破大大降低了成本并提高了可获得性,DNA数量和蛋白质序列数据可供用于训练人工智能模型的数量呈指数级增长,远远超过了蛋白质结构数据。蛋白质序列数据可以进行标记化,并在所有意义上被视为文本数据;毕竟,它由一定顺序的氨基酸线性字符串组成,就像句子中的单词一样。大型语言模型可以仅仅基于蛋白质序列进行训练,以开发对蛋白质结构和生物学的细致理解。因此,利用LLMs进行大规模扩展的努力在这个领域是很有前景的,可能会产生令人惊讶的新的洞见和蛋白质科学能力。首个使用基于Transformer的LLMs进行全新蛋白质设计的工作是Salesforce Research于2020年发布的ProGen。最初的ProGen模型拥有12亿个参数。ProGen的主要研究人员阿里·马达尼(Ali Madani)随后成立了一家名为Profluent Bio的初创公司,以推进并商业化基于LLM的蛋白质设计的最新技术。尽管他率先使用LLMs进行蛋白质设计,但马达尼也明确指出,仅仅依靠原始蛋白质序列训练的现成语言模型并不是应对这一挑战最强大的方式。结构和功能数据的融入是必不可少的。马达尼表示:“在蛋白质设计方面,最重要的进展将在仔细筛选来自多个来源的数据和具有灵活学习能力的多功能建模相交处发生。”
未来之路
在2018年诺贝尔化学奖颁奖典礼上,弗朗西斯·阿诺德(Frances Arnold)在接受演讲中说:“如今,我们在实际上可以阅读、编写和编辑任何DNA序列,但我们无法创作它。生命的密码是一部交响乐,引导着由无数的演奏者和乐器演奏的错综复杂而美妙的部分。也许我们可以从自然的作品中剪切和粘贴片段,但我们不知道如何为单个酶通路编写乐谱。”
即使在五年前,这也是事实。但是人工智能可能会使我们有能力首次在生命的历史上从零开始完全创作全新的蛋白质(及其相关的遗传密码),以满足我们的需求。这是一个令人敬畏的可能性。这些新型蛋白质将成为广泛人类疾病的治疗方法,从传染病到癌症;它们将帮助实现基因编辑;它们将改变材料科学;它们将提高农业产量;它们将净化环境中的污染物;还有许多我们甚至无法想象的其他应用。在AI驱动的蛋白质设计领域,尤其是LLM驱动的蛋白质设计领域,仍处于起步阶段,还没有得到证明。在科学、工程、临床和商业方面仍然存在重大的障碍。将这些新型治疗方法和产品推向市场将需要数年的时间。
然而,从长远来看,AI在市场应用中很少有比此更有前景的领域。在未来的文章中,我们将深入探讨用于蛋白质设计的LLMs,包括探索技术的最具吸引力的商业应用,以及计算结果与真实湿实验之间的复杂关系。让我们放大视野来结束。全新蛋白质设计并不是生命科学中大型语言模型的唯一令人兴奋的机会。语言模型可以用于生成其他类别的生物分子,尤其是核酸。例如,一家名为Inceptive的初创公司正在应用LLMs生成新型RNA治疗药物。其他团队的目标更广泛,他们计划构建广义的“生物学基础模型”,可以融合涵盖基因组学、蛋白质序列、细胞结构、表观遗传状态、细胞图像、质谱、空间转录组学等多种数据类型。最终目标是超越对单个分子(如蛋白质)的建模,而是对蛋白质与其他分子的相互作用进行建模,然后是对整个细胞、组织、器官,甚至整个生物体进行建模。
构建一个人工智能系统,能够理解和设计复杂生物系统的每一个细微之处,这是令人难以置信的。随着时间的推移,这将变得触手可及。20世纪以物理学的基本进展为特点:从阿尔伯特·爱因斯坦的相对论到量子力学的发现,从核弹到晶体管。正如许多现代观察者所指出的,21世纪正在成为生物学的世纪。人工智能和大型语言模型将在未来几十年中在揭示生物学的奥秘和释放其可能性方面发挥核心作用。
参考资料
Rob Toews.
https://www.forbes.com/sites/robtoews/2023/07/16/the-next-frontier-for-large-language-models-is-biology/?sh=53b566756f05