编译 | 任宣百 审稿 | 姜晶
本文介绍由日本早稻田大学、计算生物大数据开放创新实验室、日本医学院的Michiaki Hamada教授团队发表在Nature Computational Science的研究成果。作者开发了一种变分自编码器模型(RaptGen)用于生成核酸适配体。RaptGen利用一个轮廓隐藏的马尔可夫(HMM)模型解码器来有效地表示motif序列。作者证明了RaptGen在motif信息的基础上将模拟序列数据嵌入到低维潜在空间中,并使用两个独立的SELEX数据集进行了序列嵌入。RaptGen成功地从潜在空间生成了适配体,模型还可以通过一个较短的学习模型生成一个截断的适配体。并且证明了RaptGen可以根据贝叶斯优化应用于活性引导的适配体生成。
1
简介
适配体是一种短的单链寡核苷酸,通过其三维折叠结构与特定的目标结合。它们类似于抗体,并有多种应用,包括治疗学、生物传感器和诊断学。其优点是它们通过体外生成发展迅速,免疫原性低,并具有广泛的结合靶点,包括金属离子、蛋白质、转录因子、病毒、有机分子和细菌。适配体是通过指数富集的配体系统进化(SELEX)产生的。高通量测序技术的最新进展使研究者能够进行高通量SELEX(HT-SELEX)来收集大量的候选适配体。然而目前的测序技术仅能评估有限数量的reads。因此,有效处理高通量测序数据的计算方法对适配体的开发至关重要。
几种使用HT-SELEX数据识别适配体的计算方法已经被报道。适配体识别工具利用了与SELEX原理相关的参数,如频率、富集和二级结构。虽然它们对于从HT-SELEX数据中识别的序列很有用,但各种候选序列受到数据中实际序列存在的限制。基于模拟的方法已被报道用于序列生成;然而,这些方法需要先前的motif信息,因此不适合针对一个不熟悉的目标来识别适配体。motif预测不仅适用于候选序列的发现,而且也适用于适配体的开发过程过程,如截断和化学修饰。然而,尽管插入和缺失也是改变适配体活性的重要因素,但在计算模拟方法中,处理这些突变的方法发展不佳;因此,需要一种从实验数据中生成序列的方法来扩大探索空间,包括motif信息和核苷酸突变,为适配体的发现提供了更多的机会。
这里作者提出了RaptGen,一个用于适配体生成的VAE。RaptGen使用一个轮廓HMM解码器来有效地创建潜在空间,其中序列基于主题结构形成簇。利用潜在的表示法,生成了不包含在高通量测序数据中的适配体。并提出了序列截断和活性引导适配体生成的策略。
2
结果
RaptGen及其应用概述
RaptGen是一种概率生成模型,它能够生成不包含在输入的SELEX数据集中的新的适配体序列。为了实现这一点,RaptGen使用了一个带有HMM轮廓的VAE来进行解码器分布,并将来自输入数据集的RNA序列嵌入到低维潜在空间中(图1a)。
在本研究中,作者提出了RaptGen在适配体发现方面的三个重要应用。第一,利用序列motif将RaptGen学习到的潜在空间可视化,并为潜在空间中的任意点生成新的适配体序列(图1b)。第二,通过考虑额外的实验信息,在潜在空间中搜索优化后的适配体序列,如序列子集的结合亲和力(图1c)。第三,RaptGen能够在计算中使用更短轮廓的HMM解码器设计截断的适配体序列(图1d)。
图1 RaptGen原理图及其应用
利用模拟数据进行的motif依赖的嵌入
作者用一个CNN编码器和三种不同类型的概率模型(多策略模型、自回归模型和轮廓HMM)作为解码器构建了VAEs。作者创建了模拟数据,包括10个不同的motif,以评估这些VAEs的可视化能力(图2a)。观察到,在训练数据后,轮廓HMM嵌入的序列有motif依赖性,而多分类和自回归模型的分布显示不明显(图2b)。作者使用计算证据下界(ELBO)对模型进行评价。虽然多策略模型和轮廓HMM具有几乎相同的ELBO(20.71和20.60),并且有相似的重构错误(15.32和16.02)和kullback-莱伯勒散度分数(5.39和4.59),但多策略模型的嵌入空间未能可视化一个motif的聚类。这被认为是由于多策略模型无法考虑motif的位置。由于每个位置的核苷酸概率是在多分类模型中被独立估计的,所以移位位置的相同motif可能不会在潜在空间中对齐。自回归模型的ELBO值最低(19.50);然而,重构误差最大(18.32)。此外,分类结果也不是最优的。作者假设潜在表示在自回归模型中是可有可无的,因为模型本身有上下文信息。
图2 模拟数据的结果
接下来,作者测试了VAE模型是否能够区分分裂的motif。由于分子内碱基配对和内环结构,在RNA中经常观察到距离上的后续共存现象。作者将具有一对5-nt分裂motif的模拟数据应用于VAE(图3),采用多策略模型解码器进行比较。图3b显示了嵌入分割motif的结果。图分为三组:右motif,左motif和两个motif剩余序列。轮廓HMM输出序列与motif相关,而多策略模型分散了序列。作者从每个种群中抽样了具有代表性的HMM分布。轮廓HMM可视化显示,黄色的点跳过了左边的motif,红点跳过了正确的motif,这两者都是通过分配一个从匹配状态跳转到删除状态的高概率(图3c)。紫色点的可视化显示,两个点的中间部分跳过任何一个motif片段的概率都很低。右、正、左motif模型跳过左motif和右motif的转移概率分别为(0.995、0)、(0.107、0.002)和(0、0.987)。
图3 具有复杂motif模拟数据的结果
使用RaptGen进行真实数据评估
作者利用之前的研究中获得的SELEX序列数据进一步评估了RaptGen。由于真实数据比模拟数据更复杂,作者首先研究了潜在空间的维数。原始HT-SELEX数据两端有30-nt或40-nt可变区和固定的primer区域。在本研究中,作者使用可变区域来创建潜在空间。作者测试了多达12个空间维度,并在数据集A和B上训练了模型50次。将两个独立的HT-SELEX数据集(数据集A和B)纳入RaptGen研究。由此得到的潜在嵌入情况(图4)。作者之前证明了来自数据集A和B的适配体分别表现出连续的和分裂的motif。由于SELEX实验序列被特定的结合motif扩增,作者推断它们会根据它们的motif在一个潜在的空间中形成簇。因此,作者使用了高斯混合模型(GMM),它假设数据由高斯分布的混合模型组成,来对这些分布进行分类。作者选择了10个不同的点来代表GMM的潜在聚类中心(图4)。观察到具有不确定轮廓HMM的序列,如A-GMM-2、A-GMM5和B-GMM-0被嵌入在潜在空间中心附近。在SELEX实验后,未富集的适配体序列仍然存在。
作者试图从每个GMM中心的HMM轮廓中生成最可能的序列,用于实验评估。作者计算了概率最高的模型状态路径,并根据该路径推导出最可能的序列。当路径包含插入状态时,作者将每个插入状态随机用一个核苷酸替换,并选择一个概率最高的序列,生成多达256个没有重复的序列。所得到的重组序列及其概率如图4所示。在与其固定的引物序列连接后,通过体外转录产生适配体RNA,并通过表面等离子体共振试验评估其结合活性。在作者之前的研究中确定的适配体作为阳性对照。虽然超过一半的候选序列具有弱活性或无活性,但一些序列如A-GMM-1、B-GMM-4和B-GMM-8具有明显的结合活性。
图4 RaptGen应用程序用于真实数据。通过GMM进行的潜在嵌入和重组序列
RaptGen在适配体发现中的应用
作者提出了RaptGen在适配体开发中的进一步应用。缩短适配体的长度对工业应用具有重要意义。适配体的截断可以降低制造成本,促进材料质量的保证。它还可以防止意外的生化相互作用。因此,应尽可能地缩短适配体。由于配置文件HMM可以处理可变的序列长度,学习设置可能不同于原始的SELEX库。作者引入了一个短轮廓的HMM,其截断长度为原始SELEX设计的5或10-nt。数据集A采用20-nt和25-nt模型(称为A-L20和a-L25)进行分析,其中初始库为30-nt。数据集B采用30-nt和35-nt模型(称为B-L30和B-L35)进行分析,其中初始文库为40-nt。在创建潜在空间后,以上述GMM依赖的方式创建每个长度的10个序列。图5显示了拟议的适配体与其长度的相对活性。对于数据集A,28-nt候选库显示了绑定活性,而初始库为30-nt。对于数据集B,29-nt候选数据与原始设置40-nt相比显示出了相当大的活性。这些结果表明,RaptGen可以产生比实验预期长度更短的适配体。作者发现,重组概率较低的序列往往具有较低的结合活性,而具有结合活性的序列具有相对较高的结合概率(图5)。
图5 从RaptGen获得的截断的适配体
在RaptGen的另一个应用中,作者使用活性信息生成了适配体。携带核苷酸突变的适配体衍生物应该分布在潜伏空间的母序列周围。为了从一个活性适配体的邻近区域预测有效的候选物,应该预测结合活性的分布。作者使用了一个贝叶斯优化算法来学习一个活性分布。由于贝叶斯优化过程的分布需要为低维分布,因此RaptGen适用于该策略。为了实现贝叶斯优化,作者首先在潜在空间中嵌入了活性数据。图4中所列的序列被重新转换为空间。有几个位置从最初的GMM中心移走了(图6a,b)。作者使用这些重新嵌入的位置来进行贝叶斯优化。所预测的活性分布如图6a、b所示。作者使用局部惩罚函数并行提出多个候选。提出了10个轮廓HMM,并评估了其活性。如图6a、b所示,从阳性克隆的外围区域生成了候选基因。作者证实了新的适配体包含了核苷酸替换(图4)。此外,其中大部分都具有结合活性。对这两个数据集A和数据集B都得到了类似的结果。
图6 RaptGen对真实数据的贝叶斯优化的结果
3
总结与讨论
在本研究中,作者证明了RaptGen可以根据活性分布提出候选方案。根据贝叶斯优化,后验分布的顺序构造将允许研究者优化潜在空间中的活性。另一个在贝叶斯优化应用程序的实例中,可以将获取函数设置为非绑定活性以外的各种指标。因此,研究者可以根据其他感兴趣的特性生成候选酶,包括抑制酶或蛋白质-蛋白质相互作用的抑制活性。RaptGen在这方面的应用是很有前景的。虽然RaptGen有助于可视化和理解序列motif,但由于序列概率的计算,这种方法具有计算成本。与可以通过位置独立计算序列的多策略模型和只需要计算之前的核苷酸的自回归模型相比,轮廓HMM需要计算所有可能的状态路径和之前的(子)序列。多分类、自回归和剖面HMM的偏移计算代价分别为O(1)、O(L)和O(Lm),其中L为包括其自身在内的之前的字符数,m为剖面HMM的模型长度。配置文件HMM还需要经常计算昂贵的对数求和函数,从而导致更长的训练时间。以上这些问题需要更多的研究来改善。
参考资料
Natsuki Iwano1, Tatsuo Adachi, Kazuteru Aoki. et al. Generative aptamer discovery using RaptGen. Nature Computational Science (2022).
https://www.nature.com/articles/s43588-022-00249-6
相关数据链接
https://static-content.springer.com/esm/art:10.1038/s43588-022-00249-6/MediaObjects/43588_2022_249_MOESM1_ESM.pdf
https://static-content.springer.com/esm/art:10.1038/s43588-022-00249-6/MediaObjects/43588_2022_249_MOESM2_ESM.pdf
https://static-content.springer.com/esm/art:10.1038/s43588-022-00249-6/MediaObjects/43588_2022_249_MOESM3_ESM.pdf
代码
https://zenodo.org/record/6470866#.YqatrahByUk