Nat. Methods. | 高效数据优化Low-N蛋白质筛选工程

2021-06-24 21:49:50 浏览数 (1)

今天给大家介绍来自哈佛Wyss研究院的Surojit Biswas等人四月份发表在Nature上的文章《Low-N protein engineering with data-efficient deep learning》,文章介绍一种机器学习指导的范例,该范例可以使用低至24个经过功能分析的突变体序列来构建准确的虚拟适应环境,并通过计算机定向进化筛选千万级别的序列。作者对avGFP和TEM-1 β-lactamase这两种完全不同的蛋白质进行测试,结果发现该方法在不牺牲通量的情况下可以有效利用资源密集的高保真测定。

介绍

蛋白质工程在纳米技术、农业和医学领域前景广阔。但是,目前在海量的蛋白质序列空间上进行搜索的能力限制了蛋白质的设计。由于资源有限,工程师经常为了测定通量而牺牲检测保真度。因此,通过早期高通量(> 104个变体)代理实验确定的最佳候选者通常在更高保真度的后期分析中无法通过验证。许多种类的蛋白质甚至根本不存在高通量测定法,这使得它们无法用于筛选和定向进化。基于此,作者提出仅使用少量功能特征化的训练变体(Low-N)即可实现对序列空间的大规模探索,开发了一种在大型未标记蛋白质序列数据集上进行训练的深度学习模型UniRep。UniRep从头开始,仅从序列开始,就学会了将蛋白质的基本特征(包括生物物理,结构和进化信息)提炼成整体的统计摘要或表示形式。作者认为,将UniRep在功能蛋白方面的全局知识与仅几十个功能上具有特征的目标蛋白突变体相结合,可能就足以构建一种蛋白质适应性景观的高质量模型。作者通过使用了维多利亚水母的真核绿色荧光蛋白(avGFP)和大肠杆菌的原核生物β-内酰胺水解酶(TEM-1 β-lactamase)两种蛋白质进行了测试。展示了仅用24或96个特征序列变异作为训练数据的基本优化设计的过程。

结果

Low-N蛋白质工程的范例

UniRep利用其现有的功能蛋白序列知识,显著减少了监督学习巨大的数据需求量并实现了low-N设计。对于给定靶蛋白的low-N工程化设计,作者的步骤包含以下几步:

  1. 在超过2000万个原始氨基酸序列上对UniRep进行全局无监督预训练,提取所有功能蛋白的一般特征(图1.a)。
  2. 在与靶蛋白进化相关的序列上对UniRep进行无监督微调(进化),学习目标家族的不同功能。 作者称结合了全局序列图和局部序列图模型为evotuned UniRep或eUniRep(图1.b)。
  3. 对野生型(WT)靶蛋白的Low-N个随机突变体进行功能表征,以训练一个使用eUniRep表示作为输入的简单监督顶层模型(图1.c)。 eUnirep和顶层模型一起定义了端到端序列到功能模型,作为蛋白质适应度景观的替代物。
  4. 基于蒙特卡洛的马尔科夫链在替代景观上进行计算机模拟的定向进化(图1.d-e)。
  5. 预测相对于野生型改善功能后的最佳候选序列的实验表征。

图1. 给定靶蛋白的low-N工程化设计步骤

为了进一步了解eUniRep的全局 局部表示的作用,作者考虑了一个仅在目标蛋白的局部序列邻域上从头训练的控制模型(Local UniRep)。Local UniRep缺少有关所有已知序列空间的全局信息。作为一个额外的控件,作者使用one-hot编码,作为完整氨基酸序列的显式且精确的扁平化二进制矩阵表示形式(Full AA),以体现进化信息的重要性。

avGFP的Low-N工程

作者对avGFP的荧光强度进行了Low-N优化。图2.a显示了设计过程,从容易出错的PCR中随机取样N = 24或N = 96个训练突变体、代表序列、训练一个顶级模型并进行计算机定向进化、在野生型的15个突变信任半径内产生300个假定的优化设计。作者为每个N和表示模型重复5次实验,共产生了12,000个序列设计。图2.b显示了24个和96个训练突变体的Low-N工程结果。在20次重复中的19次中,eUniRep的总体命中率达到10 /- 2%(95%CI),将其定义为活性大于野生型的设计(> WT;eUniRep 1&2)。图2.c显示top eUniRep和Local UniRep设计以及ASR和共有序列设计的定量流式细胞仪测量结果。图2.d通过多维比例图,说明了eUniRep设计与现有GFP,ASR和共有序列设计相比的多样性。

图2. eUniRep进行avGFP的Low-N工程

TEM-1 β-lactamase的Low-N工程

接下来,作者使用TEM-1 β-lactamase进行测试,并仅对缺乏上位性信息的单个突变体进行优化蛋白质功能训练。与GFP不同的是,对TEM-1β-内酰胺酶功能的测量只能通过生物体适应性来观察,这是一种间接的终点测量,取决于其他蛋白质(例如形成DD-羧肽酶和肽聚糖转肽酶的肽聚糖)的活性。作者注意到Low-N工程特别适用于酶生物催化剂。这是由于难以在细胞内报告酶的活性,所以很难进行高通量测定。

见图3.a,作者使用单个突变体作为训练数据在3种浓度的氨苄青霉素(250、1000或2500μg/ mL)中对TEM-1 β-lactamase适应性进行了Low-N优化。设计了一个跨越四个螺旋的81个氨基酸区域,但不包括带有催化丝氨酸S70的中央螺旋。提出了具有7个变异信任半径的设计。与GFP一样,作者为每个Ntrain和表示模型生成了300个设计,重复5次。

图3.b显示了使用N = 96训练突变体进行三种不同抗生素选择的Low-N工程结果。其中,eUniRep始终分别比Full AA和Local UniRep的命中率高5-10倍和2-3倍。图3.c热度图显示所有>WT的eUniRep设计的log10(fitness)。注释了四个聚类,并针对每个聚类定行显示了Kcat和KM-1相对于WT的可能变化。图3.d显示了eUniRep设计向WT和最接近进化序列集成员的突变数。图3.e的散点图表示了观察到的适应性倍数变化(相对于野生型)与预测的适应性倍数在加性下的相对变化。

图3. eUniRep仅使用单个突变体作为训练数据对TEM-1β-内酰胺酶进行Low-N改造。

无监督训练引导搜索远离失去功能的序列,Low-N监督训练发现> WT序列

图4解释了eUniRep如何实现Low-N工程的独特设计。图4.a,b显示了avGFP和TEM-1 β-lactamase的结构,表明了eUniRep虽然利用了进化信息,但所能实现的不仅仅是共识序列设计。根据图4.c-g显示,作者检查了eUniRep序列表示,发现其变异的主轴与蛋白质功能之间存在很强的相关性,而对于全氨基酸代表的PC1却没有观察到这种相关性。在每种UniRep模型下,PC1与序列可能性高度相关,其中eUniRep观察到的此类相关性最高。假设这些模型的全局无监督预训练和进化是在自然序列上执行的,这表明此处执行的无监督学习的主要用途是基于对语义的不自然意义,引导搜索远离适应性格局中不佳的序列 。从图4.h-i观察到,只有在Low-N监督学习的情况下,才能将> WT设计与WT或较低活动水平的设计区分开。

因此,作者提出了一个分为两部分的模型来解释如何eUniRep启用Low-N蛋白工程:首先,无监督学习通过消除大部分基于非自然性的非功能性适应环境,简化搜索。其次,在这些信息的“最上方”,使用少量Low-N突变体进行监督学习,然后提取出发现优于自然变异所需要的关键信息。

图4. eUniRep设计独特的结构,需要无监督训练和low-N监督训练结合来发现> WT变体

结论

这是第一个展示Low-N蛋白质工程通用化和可扩展范例的作品。通过从全局和局部序列图谱中提取信息,可重复利用N = 24个随机训练突变体和一轮计算机筛选,筛选出1000多种新的> WT设计。这是目前机器学习指导的蛋白质功能优化中泛化和数据效率最好的案例。作者仅以24个avGFP的随机突变体作为训练数据,设计了新的荧光蛋白(FPs),可以与高通量、高保真蛋白质工程的产物sfGFP相媲美。

UniRep和作者提出的low-N方法是基于经验的和基于序列的方法,随着序列数据库的指数增长而改进,以最大程度地减少偏差,并为发现超越我们当前思维模式的蛋白质折叠和活动的新原则留下了可能性。

代码

https://github.com/churchlab/UniRep

参考资料

Biswas, S., Khimulya, G., Alley, E.C. et al. Low-N protein engineering with data-efficient deep learning. Nat Methods 18, 389–396 (2021).

https://doi.org/10.1038/s41592-021-01100-y

0 人点赞