2024年8月9日,Nature Methods推出特刊《Focus on advanced AI in biology》,介绍了基于人工智能的先进方法如何正在对生物学研究产生变革性影响。
此前的2022年1月,Nat Methods也曾推出特刊,参见 Nat Methods特刊|2021年度方法:蛋白质结构预测。
在特刊的整体介绍文章Embedding AI in biology中,作者概述了该领域的创新方法和思想领袖的前沿观点。
高级人工智能方法的主题极其丰富和复杂。尽管我们在本期社论中涵盖了广泛的主题,但我们承认,本期社论绝不是完全全面的。
在深入探讨人工智能在不同领域的潜在影响的系列评论之前,我们邀请您阅读James Zou及其同事撰写的入门文章Language models for biological research: a primer,介绍了语言模型--机器学习领域最具影响力的最新发展之一--及其在生物学研究中的蓬勃应用。
先进的机器学习方法需要大量数据。随着高通量组学技术(尤其是单细胞水平)的快速发展,从数百万个细胞中剖析不同分子模式的海量数据集,能够为模型训练提供了理想的数据源。Fabian Theis及其同事在文章Transformers in single-cell omics: a review and new perspectives中全面介绍了Transformer(一种强大的深度学习架构)及其在单细胞分析中的应用。通过设计预训练策略和利用Transformer架构,能够胜任各种下游任务的巨型基础模型在许多领域都得到了广泛应用。
按照类似的理念,Bo Wang及其同事和jianzhu Ma、Xuegong Zhang、Le Song及其同事提出了两种单细胞基础模型(分别为scGPT和scFoundation),并展示了它们在细胞类型注释、扰动预测和其他任务中的能力。
在另一篇研究论文Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis中,Wenpin Hou和Zhicheng Ji报告说,GPT-4在利用单细胞RNA序列数据注释细胞类型方面能达到最先进的性能。
GPT-4的细胞类型注释示例以及与其他方法的比较
https://doi.org/10.1038/s41592-024-02235-4
Mohammad Lotfollahi撰写的Comment对这些工作进行了总结和比较,并讨论了这一领域的未来发展方向。
同样是在这一期,Jure Leskovec及其同事利用基因表达谱和大型蛋白质语言模型学习的蛋白质嵌入,整合了来自不同物种的单细胞RNA序列数据集,向构建通用细胞嵌入迈出了一步。
此外,Lior Pachter及其同事提出了一种基于变异自动编码器的转录和剪接动力学建模框架。
Alexander Sasse、Maria Chikina和Sara Mostafavi在一篇评论中讨论了机器学习方法在基因组学中产生影响的另一个领域,即序列与表型的映射。通过利用从许多不同细胞类型和条件中收集的多模态数据,这些序列到功能模型旨在揭示不同分子层在不同遗传和环境因素影响下的相互作用和调控机制。
空间解析转录组学是一个蓬勃发展的领域,这些技术能够收集海量高维数据。因此,深度学习的先进方法对于挖掘这些复杂而信息丰富的数据集至关重要,并将继续发挥重要作用。在研究论文Dependency-aware deep generative models for multitasking analysis of spatial omics data中,Zhi Wei及其同事为空间omics分析开发了依赖感知的深度生成模型。
Mingyao Li及其同事在评论中讨论了人工智能在空间omics中的应用现状和前景。
依赖感知深度生成模型的网络架构
https://doi.org/10.1038/s41592-024-02257-y
蛋白质科学受益于计算方法的发展由来已久。AlphaFold3和RoseTTAFold-AllAtom等预测生物分子相互作用的方法取得了巨大进步。然而,挑战依然存在。Minkyung Baek的一篇评论强调了为捕捉这些相互作用的全部生物物理复杂性所需做的努力。
本期我们还介绍了Mohammed AlQuraishi、Nazim Bouatta及其同事的OpenFold,这是AlphaFold2的一个完全可训练的开源实现。基于深度学习的方法,如Barrett Powell和Joseph Davis的TomoDRGN,以及Ellen Zhong、Abhay Kotecha及其同事的CryoDRGN-ET15,正被用于对低温电子断层扫描数据集中的连续构象和成分异质性进行建模。
Omar Abudayyeh和Jonathan Gootenberg的评论强调了人工智能如何改变分子和细胞工程。人工智能促进了对各种蛋白质系统的了解,并发现了CRISPR效应器等蛋白质工具。基于人工智能的蛋白质工程也在加强CRISPR编辑,提高我们扰乱细胞甚至构建"虚拟细胞"的能力。
先进的人工智能方法也有望塑造蛋白质组学领域:Benjamin Gyori和OIga Vitek在他们的评论中描述了人工智能方法将如何帮助研究人员利用零散来源的知识,推进基于质谱的蛋白质组学数据的机理和功能解释。
在本期中,Marinka Zitnik及其同事提出的人工智能模型PINNACLE,可根据生物背景学习蛋白质表征。在生成适合每种细胞类型的蛋白质表征时,会考虑单细胞转录组学数据、蛋白质-蛋白质相互作用网络、细胞类型之间的相互作用以及组织层次结构。
PINNACLE概述
https://doi.org/10.1038/s41592-024-02341-3
成像和显微学已经从计算机视觉和人工智能的进步中广泛受益,但在很多方面,这种跨学科工作仍处于起步阶段。
Shanghang Zhang、Jianxu Chen及其同事的评论文章讨论了深度学习模型越大越好的未来,以及大型多模态模型如何有可能超越人类能力,为生物成像带来突破。与此类似,Bo Yan及其同事的一篇研究论文表明,可以训练一个通用基础模型来执行荧光显微镜重建任务,这凸显了大型模型处理更多训练数据的能力,并为去噪、各向同性重建和跨模态图像生成等不同任务提供通用解决方案。
本期的两篇通讯介绍了利用大型语言模型进行生物图像分析的工具。Wei Ouyang及其同事的BioImage.IO聊天机器人将大型语言模型的优势直接带给了分析图像的生物学家,该聊天机器人使用户能够受益于整个社区的知识,并通过书面提示轻松完成复杂的生物图像分析任务。Loïc Royer介绍了基于大型语言模型的会话代理Omega,它可以从设计到实施为生物图像分析提供便利。此类工具无疑将帮助具有不同计算专业知识水平的图像分析师从他们的图像实验中获得最大收益。
对众多复杂生物系统和疾病的研究证明,先进的人工智能方法可以在这些领域取得丰硕成果。无论是果蝇、小鼠还是人类的大脑,其连接组学重建都需要对大规模电子显微镜数据集中的神经元及其神经线进行详细而准确的分割。Michał Januszewski和Viren Jain在他们的评论中讨论了基础模型以及合成数据生成在解决与连接组学相关的计算挑战方面的潜力。
另一个值得注意的例子是,破译免疫系统的巨大复杂性和动态性构成了特别的挑战。人工智能的最新进展或许能让研究人员充分了解人类免疫力的极限。Eloise Berson、Thomas Montine、Nima Aghaeepour及其同事在评论中讨论了人工智能方法在推动免疫学研究以及探索该领域尚未解决的挑战方面的作用。在癌症研究方面,Elham Azizi及其同事讨论了人工智能在促成新发现方面的作用。新的机器学习模型有望解决一些关键问题,如整合个体内变异性较高的数据、量化和模拟细胞可塑性,以及识别肿瘤发生、肿瘤转移和调节失调背景下的因果网络。
人工智能和免疫学研究进展时间表
https://doi.org/10.1038/s41592-024-02351-1
尽管基于人工智能的方法在生物学领域取得了一定成就,但挑战依然存在,其中一些是特定领域的挑战,另一些则是一般性挑战。生物数据通常存在噪声和偏差,而且在质量和数量上具有高度异质性。在许多情况下,很难甚至不可能知道基本真相,即使是人工标注也无法确保万无一失。这些挑战可能会限制人工智能模型的准确性和通用性。
正如David Blumenthal、Dominik Grimm、Olga Kalinina、Markus List及其同事在Perspective的文章中指出的那样,生物数据集之间的复杂依赖关系也可能导致数据泄露,该文还讨论了基于机器学习的模型中数据泄露的来源。文中提出了一些问题,有助于识别和避免数据泄露带来的问题,数据泄露往往会导致发表的数据与实际观察到的数据之间存在巨大差距。
旨在揭示数据泄露的七个问题的示意图概述
https://doi.org/10.1038/s41592-024-02362-y
在生物学中应用人工智能的目标不仅仅是预测或分类。生物学家渴望利用人工智能从他们的数据中学习生物知识,并指导他们设计新的实验和转化策略。因此,许多机器学习方法的黑箱性质往往成为一个主要障碍,这使得可解释机器学习成为一个有吸引力的替代方案。Ameet Talwalkar、Jian Ma及其同事回顾了使用可解释机器学习的方法、建议和陷阱,以及在大型语言模型时代新发展的机遇。在另一篇评论中,Oded Rotem和Assaf Zaritsky讨论了可解释和可解释人工智能在生物成像中的重要性,以及理解黑盒如何在图像分析中带来新的生物学发现。
值得庆幸的是,与人工智能的潜在危害有关的伦理问题日益受到重视。伦理学家Carina Prunkl在一篇评论中讨论了将人工智能用于科学研究的伦理影响,并强调降低风险的关键策略将取决于对人工智能相关方法的有效教育和管理。对人工智能进行自我教育的必要性已变得非常明显。美国国家科学基金会主任Sethuraman Panchanathan将人工智能教育视为扫盲,他在本月的科技特写"人工智能扫盲"中与Vivien Marx分享了这一观点。科学家们正在寻求更好的培训和教育机会,以便在使用和构建人工智能工具的过程中实现和发展这种素养。我们欢迎整个研究界就这些重要话题展开更多讨论和行动。
参考资料:
https://www.nature.com/articles/s41592-024-02391-7