2024年8月9日,Nature Methods推出特刊《Embedding AI in biology》,重点介绍了创新的新方法(如生成式人工智能和大型语言模型)的卓越能力和快速发展,和各自领域思想领袖的观点。
在特刊中,来自谷歌研究院的Michał Januszewski和Viren Jain发表了题为“Next-generation AI for connectomics”的评论文章。
在海量数据上训练的大规模“基础”模型迅速改变了应用计算机科学中机遇与挑战的格局。虽然以文本为中心的基础模型(即大型语言模型)的影响已被广泛讨论,但底层技术推动人类其他领域--特别是生物科学--进步的潜力同样值得注意。
在这里,我们从神经系统的突触分辨率映射(连接组学)这一具体科学领域的角度考虑这一潜力。这一应用特别有趣,因为该领域有明确的目标(例如,绘制整个小鼠大脑的图谱),而机器学习性能的限制带来的手动劳动的成本可能高达数十亿美元。
一个假设的完美AI系统可能会实现完全自动化,从而将制作小鼠大脑连接组的总体成本降低至少一个数量级。因此,问题产生了:是否可以通过基础模型和合成数据生成等新技术来推动新一代AI的发展,从而在这一领域取得实质性进展,并解锁绘制整个哺乳动物大脑所需的计算能力。
连接组学的扩展
限制连接组学重建进展的计算问题是图像分割:这是一项经典的计算机视觉任务,旨在识别图像中属于单个对象的特定像素集。在突触分辨率大脑映射的情况下,感兴趣的对象是单个神经元、神经胶质细胞、血管、突触小泡和其他相关的大脑结构,这些图像是通过3D纳米分辨率显微镜获得的。
我们认为,最关键的要求是能够准确地分割(追踪)大脑中的线路(即神经元的轴突和树突),这可能在相当大的长度尺度上进行(例如,在整个小鼠大脑中,轴突的长度可达厘米级,而基础体素分辨率则高出数百万倍)。这尤其困难,因为分割中的单个错误(如过早终止轴突或意外合并两个不同的树突)可能导致最终连接描述中的多个错误,因为许多连接与单个轴突或树突相关联。
最先进的神经纤维追踪方法
最先进的神经纤维追踪方法通常依赖于各种形式的3D卷积网络,这些网络在标记的数据集上进行训练,这些数据集仅占单个连接组学项目中图像体积的一小部分;在最近的一项人类连接组学项目中,用于训练的标记数据仅占数据总量的约0.001%。这些方法在绝对基础上可以达到令人印象深刻的性能(在某些情况下,无错误的长度可达一毫米),但是,当推广到整个小鼠大脑中数百万毫米的线路时,即使是最先进的方法也远远不能充分自动化神经纤维追踪任务。
图1 共享的H01数据集。
基础模型
基础模型被定义为“在广泛数据上训练(通常使用大规模自我监督)的任何模型,可以适应(例如,微调)到各种下游任务”。最符合这一定义的模型是当代的通用模型(如GPT-4、Gemini和LLaMA等),这些模型通常分为两个阶段进行训练:在大量原始数据上进行自我监督的“预训练”(主要是自然语言文本和代码,但在某些情况下也包括图像、视频和音频数据),然后在较小量的数据上进行各种形式的微调,以使模型更适合特定任务(如与人类聊天或遵循用户指令)。
通用模型旨在实现跨多个任务和领域的能力,因此它们在任何特定问题上的表现差异很大。这推动了更专业的基础模型的发展。一个特别相关的例子是“分割任何模型”(segment anything model,SAM),它通过独特的标记图像训练集和模型架构,能够提供超出以往计算机视觉模型的“开箱即用”图像分割能力。
合成数据生成
机器学习模型在使用大量高质量、与任务相关的数据进行训练时表现最佳。在许多情况下,此类数据难以且昂贵地获取,特别是如果标签需要人工输入的话。这导致了对“合成”数据生成管道的兴趣增加,这些管道试图使用“假”数据来改进“真实”机器学习模型。
在文本领域,合成数据在可以自动检查相关性和正确性的情况下特别有用,如代码或数学。在其他一些领域,数据的生成过程得到了很好的理解,因此可以通过手动编码的模拟器生成合成数据。例如,高质量的图形渲染引擎可以结合明确定义的概念(如一组道路和建筑物,但在不同的光照和天气条件下),以“填补”自动驾驶环境中可能遇到的各种感知情况和示例的“长尾”。
目前尚不存在能够生成与连接组学中使用的体积电子显微镜数据相当细节的模拟器,但过去几年已经开发了用于自然图像的强大数据驱动图像生成器(如生成对抗网络和扩散模型)。这些方法已被应用于生物医学领域,并在某些情况下以重要方式改善了泛化能力,但迄今为止,此类合成数据主要用作丰富标准(即真实)训练数据的手段,而不是作为它们的替代品。此外,与文本模型类似,这些图像生成器也倾向于偶尔产生明显不合理的样本(例如,解剖上不正确的细节),目前还不清楚是用什么标准过滤掉它们。
前景
随着基础模型的规模不断扩大,并纳入更多数据和模式,它们对连接组分割等细分任务的适用性可能会提高。然而,在可预见的未来,在PB级体积数据集上运行这些模型的计算需求将带来实际限制。作者认为,推理效率将是整个系统设计的首要因素。因此,将大型模型应用于连接组学分析可能需要"蒸馏"技术,将知识从大型模型转移到更小、更专业的模型中。
另一种可能是,专门的非基础模型将继续执行与神经元追踪等任务相关的大部分核心工作,而基础模型将--而不是取代这些技术--以各种方式对它们进行补充。在这种情况下,基础模型将基本上模仿目前完成连接组重建所需的人工校对,而初始重建步骤将继续由相对高效的专家模型完成。
参考资料:
Januszewski, M., Jain, V. Next-generation AI for connectomics. Nat Methods 21, 1398–1399 (2024).
https://doi.org/10.1038/s41592-024-02336-0
--------- End ---------