ECNet:学习进化信息指导蛋白质工程

2021-10-21 10:28:16 浏览数 (1)

——生物学背景——

深度学习已经越来越多地应用于蛋白质工程领域。使用语言模型学习大规模序列的数据,得到序列分布的规律最为流行。但是,从Uniprot、Pfam等大规模序列库中学到的信息只能捕获广义上的context,缺乏对需要工程改造序列的特异性。在蛋白质工程中,学习整个序列空间context性质的模型,应对突变后的序列性质预测往往不够敏感。针对这一问题,伊利诺伊大学香槟分校的Huimin Zhao教授课题组与Jian Peng教授课题组发展了ECNet,可以挖掘全序列空间与同源序列内的进化信息(context),用以蛋白质工程中的序列功能预测。ECNet对于序列-功能的关系预测超过了现有的机器学习方法,该工作近期发表在Nature Communications上。

——方法——

ECNet模型是一个sequence-to-function模型,学习序列到功能的映射。模型的输入包括序列的两部分表达。

第一部分表达为庞大序列空间中global的表达,作者使用基于transformer架构的蛋白质序列无监督模型——TAPE(基于Pfam训练)。TAPE预训练模型对每个残基生成768维向量经过投影降维得到global的进化特征。

第二部分为同源序列中的local表达,作者使用了概率图生成模型——马尔可夫随机场(MRF)拟合同源序列的MSA(多序列比对),旨在最大化MSA中序列的概率。xin表示第n条序列中第i个残基出现的概率,ei代表位置i处残基的约束,eij代表位置i、j处残基的耦合约束。

作者使用CCMPred算法优化这个模型。最终序列中的第i个残基的特征会被如下表达,再经过将为投影,作为local表达。

序列的global与local表达输入到以双向LSTM为骨架的神经网络架构中。针对不同功能改造的深度突变扫描(DMS)的数据被用以监督ECNet模型的训练。

——表现评估——

在各个DMS数据集上,ECNet的表现都都超过了现有的无监督与有监督方法。

图1. 各个机器学习方法预测与DMS结果的spearman系数

从低阶突变体迈向高阶突变体

对于指导定向进化来说,能够预测高阶突变体(>=2)的意义更大。但是DMS实验数据中更多的是单突变体。因此作者尝试了用单突变体数据训练ECNet,用高阶突变体的fitness数据检验模型的能力。作者用TEM-1的单突变数据训练网络,而后随机生成了1460个突变序列,与TEM-1的146个已知inhibitor-resistant功能的2-10次突变序列比较,发现模型能够学会更倾向于挑选已知inhibitor-resistant功能的高阶突变序列(0.79 vs 0.48,如图2左)。

fij-(fi fj)这一指标可以衡量两个突变点间的联合影响,这一指标的预测值与DMS数据计算出的Spearman系数显示ECNet也优于其他模型(如图2右)。

图2. 左:随机突变体与阳性突变体预测fitness的分布右:三种算法预测的双突变联合影响的准确性

TEM-1 β-lactamase的突变实验验证

最后,作者使用了TEM-1 β-lactamase实验验证了ECNet的工程能力,目标是对ampicillin有抗药性。他们使用以前的DMS实验数据(包含单突变与12%的邻位双突变)训练ECNet。而后in silico突变生成了很多高阶突变序列,按照ECNet预测选取了top 37个未曾出现过且结构稳定的序列进行了实验,以9个已经报道的有效突变序列作为阳性参照。在ampicillin浓度300、1500和3000 μg/mL下,ECNet ensemble版本挑选出的序列都具有很好的阳性(如图3左),并且fitness高于野生型的比列分别达到了0.52、0.91与0.94(如图3右)。

图3. 左:不同浓度下阳参与ECNet、ECNet ensemble挑选序列的fitness比较 右:ECNet ensemble挑选序列优于wildtype的比例

——总结——

总之,ECNet结合了序列的global特征与同源序列的local特征,可以很好地预测针对不同功能序列突变地fitness。ECNet为指导定向进化具有不错的潜力。

代码:https://github.com/luoyunan/ECNet

参考文献:

Luo,Y., Jiang, G., Yu, T. et al. ECNet is an evolutionary context-integrated deep learning framework for protein engineering. NatCommun 12, 5743 (2021). https://doi.org/10.1038/s41467-021-25976-8

点击左下角的"阅读原文"即可查看原文章。


0 人点赞