Nat. Commun. | 蛋白质序列表示学习

2022-06-10 15:15:49 浏览数 (2)

作者 | 余梁 审稿 | 郑仰昆 指导老师 | 闵小平

今天给大家介绍的文章是哥本哈根大学计算机科学系 Wouter Boomsma 等人发表在 Nature Communications 上的文章 Learning meaningful representations of protein sequences。在本文中,作者探索了迁移学习和可解释性学习中的表示。在迁移学习中,作者证明了现在的一些实践只能产生次优的结果。在可解释性学习中,把几何信息考虑在内有助于提升可解释性,并且可以帮助模型揭示被掩盖的生物信息。

1

介绍

数据表示在生物数据统计分析中起着重要作用,它可以将原始数据抽象成高层次却能抓住关键信息的低维数据。过去几年,有许多文章在研究如何表示大量的生物数据。然而,这些文章的结果表明即使是机器学习模型中微小的扰动,都会对数据表示结果产生巨大的影响。由此就提出了一个疑问,到底什么是最有意义的表示。

本文讨论的问题就是表示是否捕捉到了我们想要的信息。本文关注的焦点是蛋白质序列。首先,作者考虑到了迁移学习中的表示,研究了网络设计和训练对表示结果的影响,并发现了现在的一些结果是次优的。其次,作者研究了为解释数据表示的作用,发现几何表示能提取鲁棒的和一致的结果。

2

结论

2.1 迁移学习表示

表示可以在不同域中实现。它可以是全局域,学到的表示反应的是所有蛋白的总体属性。它也可以是单个蛋白家族域,模型只需要在相关性高的序列上学习。作者考虑了分类、荧光预测、蛋白变异稳定性预测三种任务,用来反映特定蛋白质全局属性。

微调可能会损失性能。作者在从 Pfam 提取的蛋白质序列上训练了 LSTM、Transformer 和 Resnet 三个网络,要么保持嵌入模型固定(Fix),要么根据任务进行微调(Fin)。作者还考虑了一个预训练版本(Pre)和未经训练随机初始化表示模型(Rng)。作者把每个氨基酸进行 one-hot 编码作为基准。在所有的设置中,把基于注意力的平均值作为全局表示。表 1 展示了在三种任务上的结果。微调嵌入模型会显著地降低结果,随机初始化的表示在一些情况下也很好。

把全局表示构造为局部表示的平均是次优的。蛋白质序列局部表示

对应着输入序列

。为了获得全局表示,长度变化的局部表示需要被聚合成固定大小的全局表示。作者使用了两种策略,策略一(Concat)用填充符进行填充,避免了聚合,保留了每一个向量的信息。策略二(Bottleneck)让模型去学习全局表示。在三种任务上进行测试,结果如表 2 所示。Bottleneck 策略效果是最好的,这是因为在预训练过程中,模型会尽可能地去学全局结构。

重建误差不是衡量表示质量的好方法。模型中通常有很多超参数,通过重建误差来选择超参不是好方法。作者发现,随着表示维度的增加,重构准确度也会增加。但是结合下游任务来看,模型的表现会在维度大小超过一个值之后下降。

2.2 数据解释表示

域、模型架构和数据处理决定数据解释。作者利用 VAE 在 β-lactamase 家族上进行了测试。利用所有的文本训练序列模型来编码 β-lactamase 家族蛋白,再用 t-SNE 进行降维,结果如图 1 上面一行所示。LSTM 和 Resnet 模型并不能区分种类差别,Transformer 和 Bottleneck Resnet 可以看清一点差别。这是由于模型是用来表示所有蛋白的。如果仅仅训练 β-lactamase 家族序列,结果如图 1 下面一行所示,Transformer 和 Bottlenck Resnet 可以完全区分种类。但与 VAE 相比,还是有明显的差距。这些可能是由于以下几个因素造成的:(1)模型底层的归纳偏移;(2)预处理序列时的特定知识;(3)对表示空间的处理来可视化。

图 1:蛋白质潜在嵌入

表示空间拓扑携带相关信息。从图 1 中 VAE 编码图的星状结构可以推测出一个蛋白质家族中进化史呈现树结构。作者评估了一些数据的进化树,并利用标准祖先重构方法进行编码,如图 2 所示。虽然有些物种被放在了相反的位置,但总体情况是好的。这说明表示的拓扑反映了输入空间的拓扑信息。

图 2:物种进化树编码

几何表示给出了鲁棒的表示。文章定义了一个合适的黎曼指标,最短路径(geodesic)距离对应于 one-hot 编码蛋白质之间的预期距离,并分析了鲁棒性。作者根据不同的随机数,训练了 5 次模型,计算了相同数据对距离,并进行规范化,如图 3 所示。相对于欧拉距离,本文提出的距离指标方差更小,说明对模型来说更加的鲁棒。

图 3:距离

Geodesics 赋予表示意义。图 4 的前两个图分别表示了 Transformer 和 VAE 表示的欧拉距离与进化距离的相关性,前者几乎没有什么相关性,后者情况较好。第三张图表示了 VAE 的 geodesic 距离与进化距离的相关性,在中短距离上,能看出明显的正线性相关。最后一张图把海明距离作为基线。该实验表明 Geodesics 距离是合理的。

图4:预测距离

数据处理影响几何表示。作者使用 β-lactamases 家族的 A类蛋白,包含了A1 和 A2 两类,并用不同的对齐方法来处理序列,结果如图 5 所示。不同对齐方式产生的表示对不同的类别来说差别可能会很大,这可能是由于与查询序列的距离增加,一个蛋白的更多部分可能会出现在查询序列对应的间隔区域内。

图 5:不同对齐方式的重构精确性

Geodesics 提供了更有意义的插值。从表示空间解码的输出分布可以理解表示。作者构建了从 A1 成员到 A2 成员根据距离的插值,计算了输出分布的熵,如图 6a 所示,发现在第 5 个点的位置有明显的升高。作者又计算了 KL 散度,如图 6b 和 6c 所示,发现表示可以捕捉到不同位点氨基酸的变化,

图 6:蛋白序列的插值

3

讨论

蛋白质序列表示可以提升预测性能,也能发现潜在信息。可以通过选择合适的模型架构、处理数据、选择目标方程、替换先验分布来学习表示。

参考资料

Detlefsen, N.S., Hauberg, S. & Boomsma, W. Learning meaningful representations of protein sequences. Nat Commun 13, 1914 (2022).

https://doi.org/10.1038/s41467-022-29443-w

代码

https://github.com/MachineLearningLifeScience/meaningful-protein-representations

0 人点赞