作者 | 王天舒 审稿 | 陈梓豪 指导 | 闵小平(厦门大学)
这次为大家分享的是来自bioRxiv上的一篇题为《Hallucinating structure-conditioned antibody libraries for target-specific binders》的预印本,来自约翰霍普金斯大学化学与生物工程系、分子生物物理学项目组的Jeffrey J. Gray团队。在这篇文章中,作者团队提出了一个用于抗体设计的快速、通用的深度学习框架,旨在缩短抗体库生成和抗体亲和力成熟的周期。
介绍
抗体被广泛开发并作用于治疗癌症、传染病和炎症等疾病。其互补决定区(CDRs)可识别并结合大量的抗原。抗体以更高的亲和力和特异性与抗原结合的进化过程被称为亲和力成熟。增加抗体的亲和力成熟的实验方法昂贵、复杂且耗时。而深度学习(DL)模型正在改变蛋白质结构预测、工程和设计领域的工作。现阶段已经有一些基于DL的蛋白质设计方法,但是抗体的设计任务主要集中在CDR上,而CDR是具有高变异性和灵活性的区域,因此这项工作是与众不同的。
作者团队受到精确结构预测DL模型——幻想框架的启发,提出了FvHallucinator这一DL框架,以目标抗体结构为条件,设计抗体(特别是CDR环上)的序列。FvHallucinator框架与之前的幻想框架的不同之处在于——首先它专为抗体的可变结构域(Fv区域)开发;其次使用了一个特定的从抗体序列预测结构的模型DeepAB;最后,虽然该框架适用于Fv区域中任何残基子集的设计,但主要目的是生成CDRs库。
在一个由60种抗体组成的基准集上,FvHallucinator在所有六个CDR上的氨基酸恢复率超过了50%。此外,FvHallucinator在VH-VL界面设计了富含人类抗体复合物和治疗性抗体的氨基酸替换。最后作者还设计了一个管道,针对目标抗原虚拟筛选幻想序列。
结果与讨论
结构条件的子序列生成
作者团队利用trDesign的方法,其中给定结构预测序列的问题被重新设计为给定结构预测序列的“最大化条件概率”问题。因为本文主要设计抗体残基的一个子集(CDRs,VH-VL界面),所以他们将序列S分成固定位置SF和可设计位置SD,SD序列需要使得序列S在给定目标结构T和固定序列SF的条件概率最大。图1展示了整个工作的主要结构。
图1 用于生成以结构为条件的抗体Fv库的FvHallucinator框架
在抗体设计的特定目的下,一个预先训练好的DeepAb模型组合被用来预测所设计的序列的结构。预测结构和目标结构之间的误差/损失被反复最小化,以达到DeepAb所预测的折叠成目标结构的序列。
以结构为条件的CDR序列设计和VH-VL界面设计
为了测试FvHallucinator是否能够恢复与它的结构相对应的原生CDR序列,作者团队在RAbD研究中首次引入的60种抗体的基准集上测量了每个CDR环的氨基酸序列回收率(AAR)。为CDR H1、H1、L1、L2和L3设计了50个序列,为CDR H3设计了100个序列(参见方法)。将AAR计算为所有50种设计中每个设计CDR回收的天然残留物的百分比。因为CDR是表面暴露的,并在抗原的环境中进化,所以AAR可能会受限。Rosetta等方法报告表面残留物的AAR小于27%。但是,除H3外,所有CDR环都折叠成少量“典型结构”,其特征是结构基序部分由几个关键残基赋予。因此,作者期望幻想序列能够恢复对目标结构实现至关重要的残基。如果该算法被播种到本地序列附近进行搜索,那么就可以期望获得更高的AAR,因为本地序列折叠到目标结构中后,本地残基将以更高的概率保留。为此,作者还对“野生型(wild type)播种”进行了幻想,其中使用比随机更高概率的野生型残余类型对设计区域的起始序列进行采样。图2显示了在有(深蓝色)和无(浅蓝色)野生型种子的情况下,所有六个CDRs的序列恢复情况。在没有野生型种子的情况下,AAR较低,因为该算法只恢复较保守的残基。使用野生型种子,该算法可回收50%以上的野生型残基。
图2 序列回收率
这项工作的另外一个比较重要的内容是作者团队证明了幻想VH-VL界面设计积累了丰富的人类基因库和治疗性抗体突变,通过优化VH-VL界面,可以实现稳定性和亲和力的改善。FvHallucinator可以用来设计非CDR的VH-VL界面残基。评估非CDR设计的一个重要考量就是与人类抗体的相似性。在前人的工作中,衡量每个框架位置的种系残基氨基酸富集程度的方法是“FR分数”,FR评分比较高的突变导致免疫原性较低,并且富含FDA批准的抗体。因此评估VH-VL界面上的幻想设计的突变人性化也用FR分数进行计算。
作者团队整理了一组9个人源化抗体并设计了他们的VH-VL界面。有相当比例的设计表现出比野生型更高的FR分数。
图3 抗体hu225的VH-VL界面设计序列图
图4 设计的净FR分数分布
在相关序列空间限制幻想的序列损失
许多CDR序列可以折叠成相同的构象。因此,当以几何损失取样时,CDR的溶剂暴露残留物将取样一个大且不受限制的序列空间。当目标是仅受环构象约束的大而多样的序列空间采样时,仅由DeepAb几何损失引导的无限制幻想是很容易发生的。然而,有时人们会寻求接近已知序列的设计,例如保留核心抗原结合残基(图5A)。为了解决这样的设计目标,作者团队开发了两种受限的幻想模式。在序列限制性幻想中,对接近给定序列的氨基酸残基样本进行序列损失。在motif限制性幻想中,作者在特定位置(例如,重链上100A位置的50%Y和50%S)按指定比例对氨基酸残基进行motif损失。在反向传播过程中,这些基于序列的损失被添加到几何损失中,以更新设计位置的序列(图5B)。
图5
为了将幻想设计与实验生成的CDR库进行比较,作者团队选择了包含11300个独特CDR H3序列的数据集(TBS)。为了将幻想设计与TBS进行比较,作者以三种不同的模式生成了设计:无限制幻想、序列限制幻想(以wildtype为目标序列)和两种不同的主题限制幻想。
图6 从每个模式生成的设计序列剖面
图7 设计序列到TBS序列的最小Levenshtein(LD)距离和相同的LD到wildtype序列的联合分布
从幻想库中筛选抗原特异性序列的管道
为了丰富幻想库中的抗原特异性结合物,并选择所需的特性,作者团队设计了一个管道(图8A),首先在有或没有附加限制的情况下,产生一个结构条件抗体序列的大型文库的幻想。接下来用DeepAb对设计的序列进行正向折叠,以验证序列是否折叠到目标结构中,从而形成一个结构首先的抗原不可知文库。然后使用Rosetta细化模型抗体-抗原复合物,并使用Rosetta的界面分析工具测量与抗原结合的自由能,从而虚拟筛选抗原结合库。最后通过选择同时满足折叠和绑定阈值的设计子集来获得筛选库。超过70% 的设计在用DeepAb进行正向折叠时保留了目标构象(图8B),图8C显示了位置95和100A基序受限的幻想自由能的分布。只有一小部分幻想设计的自由能与野生型相当或优于野生型. 其原因作者也在文章里做了详细的解释说明。
图8
总结
作者团队在本文中提出了一个DL框架,FvHallucinator。用来生成已知抗体结构和部分序列为条件的序列库,并可以进一步筛选出稳定性、亲和力和其他所需要的特性。FvHallucinator提供了一种计算方法,可以对CDR环的全部组合空间进行取样,只受目标几何结构或构象的限制。FvHallucinator将现有的基于幻想的蛋白质设计框架扩展到抗体可变结构域的设计这一具体问题上。以前的幻想框架旨在设计蛋白质支架,而这篇文章中的框架与模型处理的是为参与抗原识别的抗体CDR区域生成高度可变子序列的挑战性任务。或许在未来的抗体设计工作中,本文能带给相关科研人员更多的启发。
参考资料
Mahajan, S. P., Ruffolo, J. A., Frick, R., & Gray, J. J. (2022). Hallucinating structure-conditioned antibody libraries for target-specific binders. bioRxiv.