Nat. Mach. Intel. | 利用生成对抗网络重建新陈代谢动力学模型

2022-11-28 17:22:31 浏览数 (1)

编译|卢长城 审稿|刘莹

今天介绍一篇洛桑联邦理工学院Ljubisa Miskovic等人于2022年8月在线发表在Nature Machine Intelligence上的文章《Reconstructing Kinetic Models for Dynamical Studies of Metabolism using Generative Adversarial Networks》。新陈代谢动力学模型通过机械关系将代谢通量、代谢物浓度和酶水平联系起来,使其对于理解、预测和优化生物体的行为至关重要。然而,由于缺乏动力学数据,传统的动力学建模通常只产生很少或没有理想动力学特性的动力学模型,使得分析不可靠且计算效率低下。作者提出了 REKINDLE框架(使用深度学习重建动力学模型),用于有效生成具有与细胞中观察到的动态特性相匹配的动力学模型。同时展现了REKINDLE使用少量微调数据,在新陈代谢的生理状态模型中迁移的能力。结果表明,数据驱动的神经网络吸收了代谢网络的隐含动力学知识和结构,并生成了具有定制属性和统计多样性的动力学模型。预计该框架将促进对新陈代谢的理解,并加速未来在生物技术和健康方面的研究。

1

简介

高通量测量技术的进步推动了生物技术和医学的发现,使人们能将不同的数据类型整合到细胞状态的表示中,并获得对细胞生理学的见解。从历史上看,研究人员使用基因组规模模型(细胞代谢的数学描述)将实验观察到的数据与细胞表型相关联。然而,传统的基因组规模模型无法预测细胞对内部或外部刺激的动态反应,因为它们缺乏关于代谢调节和酶动力学的信息。最近,研究界已将重点转移到开发动力学代谢模型上,以促进对细胞生理学的理解。

与通过稳态方法(如通量平衡分析)获得的信息相比,动力学模型捕获细胞状态的时间依赖性行为,能够提供关于细胞代谢的额外信息。然而,难以获得(1)每个反应的确切机制和(2)所述机制的参数(例如米氏常数或最大速度),阻碍了动力学模型的建立。在大多数动力学建模方法中,未知的反应机制是通过近似反应机制来假设或建模的。获得未知参数的主要挑战是生物系统固有的不确定性。由于描述生物系统的数学方程固有的不确定性,该模型通常可以重现多个而不是一组独特的参数值的实验测量值。为了应对该挑战,研究人员经常采用基于蒙特卡罗抽样的框架。在这些方法中,首先通过整合实验测量并确保与物理化学定律的一致来减少允许参数值的空间。然后对缩小的解空间进行采样以提取可选参数集。

然而,基于采样的动力学建模框架经常会产生与实验观察到的生理学不一致的大量动力学模型亚群。例如,与实验数据相比,构建的模型可能局部不稳定或代谢状态的时间演化过快或过慢(图1)。这极大降低了计算效率,特别是对于具有理想属性的亚群的低发生率。例如,局部稳定的大尺度动力学模型的生成率可以低于1%。额外要求其他模型属性,例如实验观察到的代谢状态的时间演变,进一步降低了所需模型的发生率。事实上,只有一小部分参数空间同时满足所有理想的模型属性,作者观察表明这个子空间不是连续的。此外,这些方法都不能保证采样过程(通常为无偏采样)将产生理想的参数集。这些缺点随着动力学模型大小的增加而被放大,并且在参数空间中找到满足所需特性和观察到的生理学的区域变得具有挑战性。此外,这些区域的结构非常复杂,需要神经网络等非线性函数逼近器来映射它们。

作者提出利用条件生成对抗网络(CGAN)来生成动力学模型,以捕捉实验观察到的代谢反应。REKINDLE利用现有的动力学建模框架来创建训练GAN所需的数据。使用神经网络高效生成具有所需属性的模型(图1a),大大减少了传统动力学建模方法所需的大量计算资源。同时,证明了针对一种生理学训练的神经网络可以使用少量数据针对另一种生理学进行微调(图1b)。REKINDLE与创建动力学模型的传统方式不同,为更全面的计算研究和高级代谢统计分析铺平了道路。

图1 REKINDLE框架和迁移应用概述

REKINDLE用于生成生物学相关的动力学模型

REKINDLE 框架由四个连续的步骤组成(图1a)。第1步,针对预先指定的条件(能描述实验观察数据并具有适当动态特性的模型)测试动力学参数集,标记并划分。第2步,REKINDLE 使用CGAN来学习从上一步获得的标记数据的分布。第3步,经过训练的生成器生成满足指定条件的新动力学模型参数。第4步,对生成的数据集进行统计和验证测试,以确定是否满足强制约束条件。

REKINDLE的输入是从传统动力学建模方法获得的动力学参数集。该工作研究大肠杆菌中心碳代谢的生物学相关动力学模型,包含411个动力学参数,只与浓度相关的参数(其他参数可由其推到得出)作为输入特征,共计259个特征。定义生物学相关模型为满足所有特征响应时间比细胞的倍增时间快三倍的模型,确保代谢过程的扰动在随后的细胞分裂之前稳定在操作稳态的5%以内。

从传统动力学模型ORACLE中生成80,000个动力学模型参数集,以9:1的比例划分训练集和测试集。值得注意的是,训练数据中的两类模型,无论是生物学相关还是不相关的,在动力学参数空间中都具有统计意义上较大的重叠,并且不能通过低阶降维技术独立可视化。

条件GAN由两个前馈神经网络(生成器和判别器)组成,以生物学相关标签为条件。生成器以随机噪声和生物学相关标签作为输入,生成动力学模型参数集。判别器以动力学模型参数集和生物学相关标签作为输入,训练过程的目标是获得一个好的生成器,该生成器从特定的类标签生成动力学模型(图1a ,步骤 3),使判别器对这些模型与训练数据中同类的动力学模型无法区分。

训练完成后,通过一系列测试验证生成的动力学模型的生物学相关性(图1a,步骤 4)。首先通过比较参数空间中的分布来测试生成数据和训练数据的统计相似性。然后,检查雅可比特征值的分布及其相应的主要时间常数,以验证生成的参数集是否满足所需的动态响应要求。最后,测试模型对稳态代谢曲线扰动的动态响应,以评估生成的参数集的稳健性。

2

结果

REKINDLE生成大肠杆菌代谢动力学模型

以大肠杆菌中心碳代谢的生物学相关动力学模型为例,对模型进行的基于热力学的通量分析以及来自野生型大肠杆菌有氧培养的综合实验数据表明,转醛缩酶(TALA)和异柠檬酸裂解酶(ICL)这两个反应可以正向和反向进行,而其他反应具有独特的方向性。这意味着对这种生理状况的研究需要生成四个动力学模型群体,每个群体对应于TALA和ICL方向性的不同组合。

对训练数据的检查表明,4种生理学模型中有39%到45%的动力学速度太慢(表1),这意味着这些模型无法描述大肠杆菌的代谢。

表1 使用ORACLE(训练数据)和REKINDLE生成的四种生理学生物学相关模型的发生率

训练1000个epoch的GAN,对四种生理学进行了5次统计重复。以一种生理学模型为例,每隔10个epoch,生成器生成300个生物学相关模型。通过计算REKINDLE生成的分布和训练数据分布之间的 Kullback-Leibler散度来量化参数相似性(仅对应于生物学相关动力学模型的参数集)。KL散度随着训练而减小,这意味着GAN学习了与生物学相关动力学相对应的动力学参数的分布,也表明GAN没有遭受模式崩溃,此外,GAN也没有过度拟合。使用生成的常微分方程(ODE)参数化系统的线性稳定性分析来测试生成的模型的生物学相关性。相关模型的发生率随着训练epoch的数量而增加,此外,给定epoch,相关模型的数量与KL散度之间的= -0.691(Spearman相关系数)的负相关性 (图2c)表明KL散度是评估训练质量的良好指标。训练在约400个epoch后稳定下来,判别器准确度约为50%,这表明生成的模型不是训练失败的产物。

图2 验证GAN生成的动力学模型

验证REKINDLE生成的模型

本文选择生物学相关发生率最高的生成器(图2b),并用它生成了10,000个生物学相关的动力学模型。首先通过计算动态响应的主要特征时间常数的分布来验证生成模型的动力学响应速度,REKINDLE生成的模型比训练集中的模型具有更快的动态响应。

接下来,通过扰动稳态并验证扰动系统是否会演变回稳态来比较REKINDLE生成的和ORACLE生成的动力学模型的稳健性,结果表明REKINDLE (66.85%)和ORACLE(66.31%)的模型恢复到稳定状态的比例相当(图2e,右)。对于其余三个生理学模型,REKINDLE生成的模型始终比ORACLE生成的模型更稳健。例如,对于生理学4,REKINDLE 生成的模型中有83.79% 恢复到稳定状态,而ORACLE生成的模型中只有61.05%。

为了可视化动力学模型的扰动状态的时间演变,对ODE解的时间序列数据进行了主成分分析(PCA)。前两个主成分解释了解ODE解中总方差的97.17%(成分1,85.21%;成分2,11.95%)。为四个随机选择的REKINDLE生成的动力学模型绘制了这些成分(图2e,左),3个模型返回到参考稳态,1个逃脱了(图2e,黑色三角表示参考稳态,圆圈表示初态)。

REKINDLE生成模型的可解释性

图3 REKINDLE生成的参数集的可解释性

使用KL散度来比较生理学1的生物学相关和不相关动力学模型的参数分布,检查具有最高KL散度的前十参数的分布(图3a)。只有少数几个参数在两个群体之间的分布存在显着差异,表明只有少数动力学参数影响特定模型属性。对KL散度最大的参数进行量化,将生成的动力学模型以此划分成10个子集,比较不同子集的响应时间分布(图3b),表明该参数的较大值有利于生物学相关性。对其他三种生理学模型重复了这项研究并获得了类似的结果。这些结果表明,GANs通过学习关键动力学参数的分布来提取重要信息,并且忽略不影响所需特性的参数。

使用迁移学习外推到其它生理学

代谢网络的综合分析需要大量的参数集,然而,在生成大型参数集和计算需求之间存在的权衡可能会限制研究范围。REKINDLE通过迁移学习利用GAN的外推能力解决了这个问题。使用小的训练样本对另一种生理学模型预训练的生成器进行微调就可以达到很好效果。其针对生理学1训练的生成器,并用自生理学2-4的10、50、100、500和1,000个训练样本分别重新训练生理学2-4的GAN。在仅具有30个训练样本的迁移学习中提供了非常高的生物学相关生理模型的发生率(图4b)。尽管训练时间较短,迁移学习明显优于从头开始的训练。仅在大约1,000个训练样本情况下,从头开始训练的性能与迁移学习相当。当样本数量低于500时,从头开始训练完全失败,因为判别器胜过了生成器。扰动稳态分析表明,迁移学习生成的动力学模型具有与从头开始训练的GAN相似的鲁棒性(图4c)。狭窄的参数分布可能表明生成的模型源于空间中的受限区域,并且生成器没有生成不同的动力学模型,通过比较迁移学习和从头训练GAN生成的动力学模型的响应时间分布,两者具有良好的分布。

由此得出,迁移学习成功地捕捉了生理学的特殊性。只需几个动力学参数集样本,迁移学习就可以生成具有生物学相关性、鲁棒性和参数多样性等所需特性的动力学模型。预计这种方法可以帮助推导出代谢网络高通量分析的新方法。

表2 ORACLE、REKINDLE、与迁移学习(REKINDLE-TL)的计算时间比较

图4 通过迁移学习外推到多种生理学

3

总结

通过学习动力学参数的复杂高维空间和相关模型属性之间的映射,GANs可以增强根据指定评价指标创建模型的效率,以及根据评价指标划分参数空间的信息。REKINDLE在生成模型方面比传统方法快几个数量级,当通过迁移学习生成模型时,生成时间的减少更为明显。一旦为目标生理学训练了生成器,新生成的合成数据集适用于传统的统计分析,扩展了传统的小型数据集以进一步了解所研究的系统。

参考资料

Choudhury, S., Moret, M., Salvy, P. et al. Reconstructing Kinetic Models for Dynamical Studies of Metabolism using Generative Adversarial Networks. Nat Mach Intell 4, 710–719 (2022).

https://doi.org/10.1038/s42256-022-00519-y

源码:

https://github.com/EPFL-LCSB/rekindle

0 人点赞