编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Priscilla Chan和Mark Zuckerberg的一篇文章。陈·扎克伯格倡议组织者认为由人工智能驱动的虚拟细胞建模系统将推动我们对疾病理解的突破。
作为最小的生命单位,细胞对于理解疾病至关重要,然而,关于它们的许多方面仍然未知。例如,我们不知道数十亿的生物分子,如DNA、蛋白质和脂质,是如何聚集在一起成为一个细胞的。我们也不知道我们体内的多种细胞类型是如何相互作用的。对于细胞、组织和器官如何发生疾病以及它们如何保持健康,我们的理解有限。人工智能可以帮助我们回答这些问题,并将这些知识应用于全球健康和福祉的改进,只要研究人员能够获取并利用这些强大的新技术。想象一下,如果我们有一种方法可以使用人工智能模型来表示每一种细胞状态和细胞类型。一个"虚拟细胞"可以模拟我们体内任何细胞类型的外观和已知特性,从检测视网膜中的光的棒和锥细胞到维持心脏跳动的心肌细胞。科学家可以使用这样的模拟器来预测细胞如何对特定条件和刺激做出反应:免疫细胞如何应对感染,当一个孩子出生时患上罕见疾病时细胞层面会发生什么,甚至患者体内如何对新药物做出反应。科学发现、患者诊断和治疗决策都将变得更快、更安全、更高效。在陈·扎克伯格倡议中,我们正在助力生成科学数据并建立计算基础设施,以使这成为现实,并为科学家提供他们需要的工具,以利用人工智能的新进展,帮助终结疾病。
数据
人工智能的飞快进步结合大量科学数据,使得模型已经能成功预测几乎所有已知蛋白质的结构。DeepMind使用了50年来精心收集的数据来训练AlphaFold,并在仅仅五年内解开了蛋白质结构之谜。Meta开发的另一个人工智能系统ESM是一个蛋白质语言模型,它的训练不是基于词汇,而是基于超过6000万蛋白质序列。它被用于各种应用,如预测蛋白质的结构以及从单一序列中预测突变的影响等。虚拟细胞建模系统也需要大量的数据支持。自2016年以来,陈·扎克伯格倡议一直在全球范围内支持研究人员生成和注释有关细胞及其组分的数据,构建工具来整合这些大型数据集,并使其广泛可用供研究人员学习和建立。一个全球性的研究人员联盟一直在构建人体内每种细胞类型的参考地图,作者的旧金山生物中心正在创建全身细胞图谱。这些数据集共同形成了开源的Human Cell Atlas的初稿,该图谱将记录人体内不同发育阶段的细胞类型。旧金山生物中心和陈·扎克伯格成像研究所正在合作开展OpenCell项目,该项目用于标记我们细胞内不同蛋白质的位置。研究人员还在使用像Geneformer和scGPT等机器学习模型来探索大量有关基因和细胞的数据,包括从CELLxGENE生成的数据,这是陈·扎克伯格倡议的科学和技术团队创建的开源软件平台,旨在加速单细胞研究。类似地,通过用于冷冻电子断层扫描的新型原型数据门户,成像研究所和科学技术团队正在与机器学习专家合作,以开发显微镜数据的自动标注,从而将数据处理时间从数月甚至数年缩短到仅仅数周。
作者正在尽可能使数据具有代表性,以确保科学突破惠及所有人。这包括将儿童数据纳入Human Cell Atlas,填补我们对儿童时期疾病细胞机制的知识空白。通过Ancestry Networks资助计划,作者的组织还支持研究人员生成基于来自黑人、拉丁裔、东南亚人和土著人等少研究的种族、民族和祖先背景的组织样本的参考数据。已经有研究团队使用这些精心策划的数据集取得了发现。其中一项发现是与囊性纤维化相关的破损基因由一种科学家以前从未遇到的细胞类型表达,而另一项发现是识别出对SARS-CoV-2最易受伤害的呼吸细胞。其他人正在使用这些数据来发现新的选择,以潜在地纠正特定细胞中导致疾病的突变。
计算赋能
这些发现是治疗疾病的第一步,作者相信人工智能将极大加速研究人员未来的发现速度。为了创建虚拟细胞,作者的团队正在建立一个高性能计算集群,配备了1000多个H100 GPU,这将使团队能够开发新的人工智能模型,这些模型受到有关细胞和生物分子的各种大型数据集的训练,包括科学研究机构生成的数据。随着时间的推移,作者希望这将使科学家能够模拟健康和疾病状态下的每种细胞类型,并查询这些模拟以了解生物学中难以捉摸的现象是如何发挥作用的,包括细胞的生成、它们在身体内的相互作用以及疾病性变化如何影响它们。虽然计算集群规模不如私营部门用于商业产品的大规模集群,但一旦投入使用,它将成为全球非营利科学研究中最大的人工智能集群之一。这将是一个对于那些准备以新的方式使用数据集但因无法承受最新人工智能技术的高昂成本而受阻的学术团队的重要资源。与的其他工具一样,这些数字细胞模型及其相关数据和应用将向全球研究人员开放。
人才赋能
这些数据集的生成、计算集群的建设以及将人工智能应用于生物学,正是作者工作的多学科、协作性质的典范。生物中心网络汇集了来自不同学科和机构的专家,共同应对一些科学上最大和最有风险的挑战,这些挑战在传统的学术环境中无法解决。通过像CELLxGENE这样的项目,世界各地的研究人员共同构建了一个单细胞数据资源库,这证明了一个为开放科学提供共享资源的项目如何能够随着更多合作者贡献资源和智慧而不断发展。当陈·扎克伯格倡议在2016年首次启动科研工作时,作者承诺了一个宏大的目标:帮助科学界在本世纪末治愈、预防或管理所有疾病。作者相信这个目标是可能实现的,如果领先的科学家和技术专家共同合作,充分利用人工智能所创造的机会,这个目标将得到显著推进。我们可以从揭示细胞的奥秘开始,这可能会导致有助于终结我们所知的许多疾病的工作。
参考资料
Priscilla Chan and Mark Zuckerberg. How AI can help us understand how cells work—and help cure diseases.
https://www.technologyreview.com/2023/09/19/1079261/czi-ai-cell-disease/. September 19, 2023