Nat Methods|生物学研究语言模型:简化版入门指南

2024-08-21 15:34:20 浏览数 (1)

2024年8月9日,Nature Methods推出特刊《Embedding AI in biology》,重点介绍了创新的新方法(如生成式人工智能和大型语言模型)的卓越能力和快速发展,和各自领域思想领袖的观点。

在特刊中,美国斯坦福大学生物医学数据科学系的Elana Simon、美国斯坦福大学计算机科学系Kyle Swanson和美国旧金山Chan-Zuckerberg生物中心的James Zou发表了题为“Language models for biological research: a primer”的观点文章。

语言模型在人工智能和计算生物学的许多领域发挥着越来越重要的作用。本指南旨在简明扼要地介绍语言模型在生物学研究中的应用,包括自然语言模型和生物语言模型的基本概念、应用场景、优势及局限性,将为生物语言模型的最佳实践和关键资源提供指导。

语言模型基础

语言模型是一种AI技术,能够学习序列中的复杂模式,如句子中的单词序列或生物序列中的氨基酸排列。语言模型还可用于解决最初设计时并不打算解决的问题,其性能优于针对这些问题明确训练的模型。由于这种灵活性,语言模型通常是基础模型,可以实现广泛的下游应用。语言模型并不局限于自然语言(例如英语);它们还可以处理生物语言,即由氨基酸或基因等生物实体序列组成的生物语言。本文讨论的语言模型都基于转换器架构 ,这是一种能够捕捉长序列模式的人工神经网络。

语言模型通常以无监督的方式进行预训练,即在大量未标注的数据上学习基本规则。预训练完成后,模型可以通过微调(迁移学习)针对特定任务进行优化。语言模型的应用范围广泛,包括直接预测、嵌入分析和迁移学习等。

图1:使用语言模型进行生物学研究的方法

自然语言模型

尽管生物学从根本上取决于物理实体(蛋白质、基因和细胞)的特征,但我们对该领域的理解是通过科学论文、教科书、网页等自然语言记录的。因此,人们对使用自然语言模型为生物学研究人员提供轻松访问这些书面资源中包含的大量生物信息越来越感兴趣。此外,自然语言模型可以用来自替代模态的数据(如图像或基因序列)进行增强,以形成多模态模型,从而提供对各种形式的生物实体的洞察。下面,我们将探讨自然语言模型在生物学研究中的应用,主要使用直接预测方法。

1. 理解生物文献的自然语言模型

自然语言模型能够理解和总结生物文献中的大量信息,并将信息提炼成易于理解的回答。除了总结生物概念,自然语言模型还能帮助研究人员快速理解新的科学内容。自然语言模型甚至可以在现有研究文献的基础上提出新的生物医学研究思路(例如,使用人工智能处理多序列比对的新方法)。

图2 自然语言模型在生物学研究中的应用示例。

自然语言模型众所周知的一个局限性是容易产生"幻觉"或生成包含事实错误的听起来连贯的文本。此外,这些模型可能不会对其处理的内容进行批判性评估,可能会反映作者的解释,而不会质疑这些解释是否得到数据的支持。因此,对自然语言模型输出的准确性进行事实检查,并对模型得出的任何结论进行批判性评估至关重要。

2、与软件交互的自然语言模型

除了文献理解,自然语言模型还能辅助研究人员编写和调试生物信息学分析代码。它们了解各种软件包的用途和连接方法,能够为研究人员提供代码建议和错误修正。此外,这些模型还可以为软件工具提供自然语言接口。

自然语言模型可以是通用的(如ChatGPT),也可以是针对生物领域进行训练的(如BioBERT)。通用模型由于知识面广,在某些生物医学任务中表现优异,而专业模型则在特定领域更具优势。

生物语言模型

自然语言模型是为生成文本而训练的,而生物语言模型则是为生成生物数据序列(例如氨基酸序列)而训练的。我们将探讨采用这种方法的生物语言模型的两个强大示例:蛋白质语言模型和单细胞语言模型。但生物语言模型并不局限于这些模式,还可应用于任何拥有可表示为序列的大型数据集的生物实体(例如DNA)。

1、蛋白质语言模型

蛋白质语言模型是为生成蛋白质序列而训练的。它们在大型蛋白质序列数据集上进行预训练,学习蛋白质进化约束和关键特性的表征。例如,ESM-2是一个基于转换器架构的蛋白质语言模型,能够在不依赖实验数据的情况下预测蛋白质的稳定性、相互作用和突变影响。

应用场景:

  • 直接预测:预测氨基酸序列中每个位置的氨基酸类型。
  • 嵌入分析:通过计算蛋白质序列的嵌入,用于聚类、可视化和功能预测。
  • 迁移学习:将预训练的模型应用于具体的生物学问题,如预测病毒抗原突变的免疫逃逸。

事实证明,蛋白质结构预测模型与语言模型一样,可通过直接预测、嵌入分析和迁移学习等方法广泛应用于各种下游应用。

互动示例:

https://colab.research.google.com/drive/1zIIRGeqpXvKyz1oynHsyLYRxHHiIbrV5?usp=sharing

2、单细胞语言模型

单细胞语言模型处理单细胞基因表达数据,揭示细胞状态和功能。例如,Geneformer是一个单细胞语言模型,通过预测细胞中表达量最高的基因来训练。这些模型能够学习细胞类型特异性模式和上下文信息,为细胞类型注释和批量校正等任务提供支持。

应用场景:

  • 直接预测:模拟基因扰动对细胞的影响,预测细胞对基因移除的敏感性。
  • 嵌入分析:创建细胞嵌入,用于聚类、可视化和细胞类型标记。
  • 迁移学习:微调模型以预测细胞类型标签和细胞状态,支持多模态表示。

多模态语言模型

多模态语言模型能够处理多种类型的数据(如文本、图像和生物序列),从而解决更复杂的问题。例如,PLIP和Med-PaLM Multimodal等模型能够根据生物医学图像回答问题,或根据分子结构生成自然语言描述。这些模型为生物学研究提供了更加全面的视角和工具。

通过将生物文本的固定语言模型嵌入与其他领域的数据相结合,自然语言模型也可以应用于多模态环境,而无需额外的训练。

使用生物学语言模型的最佳实践

在选择和应用语言模型时,需要考虑研究问题的目标、可用数据和计算资源。直接预测、嵌入分析和迁移学习是三种主要的应用方法,每种方法都有其适用场景和优势。此外,还应关注模型的开源性、易用性和性能评估等方面。

图3 选择正确的方法来调整语言模型。

尽管语言模型在生物学研究中展现出巨大潜力,但它们也存在一些局限性。例如,模型可能产生“幻觉”或生成包含事实错误的文本;训练数据可能存在噪声或代表性不足的问题;针对特定生物应用定制的模型有时仍能优于通用语言模型。因此,在使用语言模型时需要进行批判性评估和事实检查。

结论与展望

本入门指南说明了如何使用语言模型(包括ChatGPT等自然语言模型和ESM-2和Geneformer等生物语言模型)来推进生物学研究。这些模型通过直接预测、嵌入分析和迁移学习促进了一系列生物学应用。虽然语言模型可以指导假设的生成并帮助解释结果,但它们也会犯错,还不能取代实验验证。语言模型还需要大量数据进行训练,因此目前其生物应用案例仅限于现有数据集较大的领域。随着更多数据的产生和公开共享,我们预计语言模型将影响生物学中更多不同的领域。

参考资料:

Simon, E., Swanson, K. & Zou, J. Language models for biological research: a primer. Nat Methods 21, 1422–1429 (2024).

https://doi.org/10.1038/s41592-024-02354-y

--------- End ---------

0 人点赞