编译 | 应俊杰 审稿 | 陈梓豪 指导 | 闵小平(厦门大学)
今天给大家介绍的是来自华为诺亚方舟实验室发表在 arxiv 上的预印本《AntBO: Towards Real-World Automated Antibody Design with Combinatorial Bayesian Optimisation》。作者设计了一种组合贝叶斯优化框架 AntBO ,可实现抗体 CDRH3 区域的高效计算设计。并使用 Absolut! 软件套件对 AntBO 进行基准测试与评分。对 188 种抗原设计抗体的结果证明了 AntBO 在设计具有不同生物物理特性的 CDRH3 区域方面的优势。只需要不到 200 种蛋白质设计,AntBO 推荐的序列就可以优于从 690 万个CDRH3的实验数据库和常用遗传算法提取的最佳序列。
1
研究背景
由于 CDR 区域主要定义结合特异性,计算抗体设计的主要总体目标是开发可以与选定抗原结合的 CDR 区域,例如病原体、肿瘤新抗原或治疗途径靶标。尽管所有 CDR 存在内在变异,但 CDRH3 区域具有最高的序列和结构多样性,赋予它在结合位点形成中的关键作用。因此CDRH3 是抗体开发中最广泛重新设计的组件。在文章中,作者将 CDRH3 区域的设计称为抗体设计。
图1:抗体结构以及CDR区示意图
目前主流的生成式模型已被用于从序列数据集中生成候选抗体。具体来说有自回归模型、变分自编码器或生成对抗网络。由于当前数据集与抗体序列空间相比,数据集非常小。因此用于提高抗体亲和力的机器学习方法的应用很少。而且,这些方法的普遍性和可解释性很难评估。作者团队着手利用最小数量的实验迭代测量中的抗体序列亲和力的最大信息,使用 BO(贝叶斯优化) 生成对潜在更高亲和力序列的知情预测。并且利用 Absolut! 软件作为黑盒预测器,提供复杂的抗体-抗原景观。AntBO 不仅可以生成多种新的 CDRH3 序列,其亲和力比先前已知的序列更高。
2
将抗体设计形式化为黑盒优化
为了寻找对抗原具有强亲和力、满足特定生物物理特性的 CDRH3 序列,使其成为实际应用的理想选择(即,可制造、长保质期、高浓度剂量)。这些属性被描述为“可开发性分数”。要在CDRH3 序列的巨大空间上找到高亲和力高可开发性分数的序列。作者团队将抗体CDRH3区域的设计作为黑盒优化问题。黑盒是指可以将任意CDRH3序列作为输入并返回其对指定的抗原的结合亲和力的工具。
2.1 CDRH3 可开发性标准
作者的框架可与任意可开发性约束兼容。在文章中,作者团队对 CDRH3 区域最相关的分数进行约束:1)序列的静电荷应控制在[-2,2]的范围内,也就是各个残基的电荷之和。2)任何残基在序列中重复的次数不超过五次。3)序列中不包含糖基化基序。
2.2 优化问题
图2:不满足可开发性约束的序列
考虑长度为 L 的蛋白质序列的组合空间为 X,则其空间的基数是 。可以将黑盒函数 f 视为从蛋白质序列到抗原特异性实值的映射f:→R,因此有以下公式:
其中 CDRH3-Developable(x) 是一个指示函数,它采用氨基酸序列并返回一个布尔值,以确定是否满足可开发性标准(上述三个约束)。该公式表示优化后的序列为满足约束且抗原特异性实值最优。
2.3 绑定亲和力计算
Absolut!是最先进的计算模拟套件,最接近于现实的复杂环境,它考虑了抗原和抗体的生物物理特性,以创建抗原和抗体的可行结合的模拟。该软件通过三个主要步骤来计算结合亲和力,1)抗体-抗原晶格表示2)抗原的离散化3)结合亲和力计算。作者团队使用 Absolut! 作为黑盒预测器。
3
基于组合贝叶斯优化的抗体设计
第二部分中的黑盒函数 f 具有以下特性:a) 评估成本高,b) 没有解析解,c) 可能不可微。为了规避这些问题,作者团队使用贝叶斯优化(BO) 来解决优化问题。
图3:AntBO 用于抗体设计的整体优化过程
BO通常会经过以下循环。首先在开始时在一组随机数据点上拟合高斯过程(GP)。接下来,优化一个采集函数(acquisition fuction),该函数利用 GP 后验来提出改进先前观察的新样本。最后,将这些新样本添加到数据点以重新拟合 GP 并重复采集最大化。
作者在迭代过程中还加入了一种利用置信区域(TR)的可开发性约束方法。具体来说,在每次迭代 t 中,围绕最佳点 定义一个 TR,然后执行 CDRH3-TR采集最大化,接着之前最佳的 开始,接下来,对 的相邻点进行采样。通过选择一个随机氨基酸并用一个新的氨基酸扰动它。如果序列比前一个有所改进,就将他记录下来(如图3 中下部分)。
4
实验与结果
作者在使用AntBO框架的前提下选择了三种不同的方法,作为GP的核函数实验:AntBO SSK、AntBO TK、AntBO ProtBERT。并与其他几种组合黑盒优化方法进行比较,例如 HEBO、TuRBO、随机搜索 (RS)和遗传算法(GA)
作者使用12个核心抗原,核心抗原实验用10个随机种子进行,剩下的抗原用3个种子。作者报告了结果的平均值和95%的置信区间。作者观察到AntBO TK达到最佳的性能w.r.t最小化能量(最大亲和力),通常在200个蛋白质设计中达到高亲和力,在没有问题的情况下,AntBO TK可以搜索比Absolut!数据库中极高亲和力(very-high affifinity)更高亲和力的序列。
表1:达到一定亲和力所需的蛋白质设计平均数量
作者采用性能最佳的 AntBO,并在 188 种抗原中与 GA 和 RS 进行比较。表1中展示了三种方法需要在成功的试验中达到低、高、非常高和超级亲和力(需达到Absolut!数据库的前 5%、1%、0.1%、0.01%)所需的蛋白质设计的平均数量。其中super 表示超过了数据库中最好的 CDRH3 所需的蛋白设计数量。结果表明,AntBO 显着减少了达到重要的亲和力类别所需的蛋白质设计数量。
图4:SARS-CoV 病毒的 S 蛋白的可开发性评分(亲水性、电荷和不稳定性)
作者还对SARS-CoV的结合亲和力和发育性评分。可以观察到亲水性随能量增加呈正相关。虽然其他方法具有更大的电荷分布,但可以看到 AntBO 推荐的抗体中性电荷的点最多。总的来说,能量上有利的序列仍然探索了各种可开发性得分,并且与其他方法相比,AntBO 的蛋白质设计更稳定。
5
结论
作者提出了 AntBO,一种用于设计抗体 CDRH3 区域的组合 BO 框架。AntBO 利用抗体的可开发性标准在组合空间中构建可行序列的信任区域,从而使能够设计出具有所需生物物理特性的抗体。作者团队对几种抗原的结果证明了AntBO 在寻找序列方面的效率优于许多基线,包括从有 690 万条序列的Absolut!数据库中获得的最佳 CDRH3。
参考资料
Khan A, Cowen-Rivers A I, Deik D G X, et al. AntBO: Towards Real-World Automated Antibody Design with Combinatorial Bayesian Optimisation[J]. arXiv preprint arXiv:2201.12570, 2022.