本文为《Artificial Intelligence in Drug Design》一书第19章的内容,作者是美国Evotec Biologics公司分子设计/数据科学部门的Jeremy M. Shaver等人。
该书的总体介绍见Springer推出新书《Artificial Intelligence in Drug Design》
摘要
应用于抗体开发的深度学习正处于上升期。数据量的不足和生物平台的差异使得开发能够预测抗体行为(实际商业开发步骤中)的监督模型具有挑战性。但是在一般蛋白质行为建模方面的成功和早期的抗体模型表明了这种可能性,特别是由于抗体有一个共同的折叠。同时,新的数据收集方法以及无监督和自监督的深度学习方法的发展,如生成模型(generative models)和掩码语言模型(Masked Language Model),为更好的监督模型开发提供了丰富而深入的数据集和深度学习架构。这些都使行业朝着改善可开发性、降低成本和更广泛地获取生物治疗药物的方向发展。
1 简介
在治疗性单克隆抗体的开发中,有许多步骤都会影响到生物治疗药物开发的总体成本和时间。深度学习很容易被视为与这些步骤中的许多步骤相关,但是,与许多深度学习应用一样,根本的限制是足够的高质量的数据的可用性。在存在此类数据的实验领域,深度学习已经在帮助指导抗体的发现、设计和制造。但是,虽然深度学习在许多其他领域的应用都很有吸引力,然而该行业需要挑战自己,才能在这些应用中利用这些方法。
在以抗体为基础的治疗方法的道路上,很多注意力都集中在确定具有必要的体内治疗行为的初始序列上。抗体会与必要的靶标(仅该靶标)结合,并与有效的表位结合吗?这种关联会产生足够强的相互作用来产生预期的反应吗?深度学习在这个领域可以发挥重要作用,但拥有候选序列只是药物的第一个障碍。
基于抗体库的发现通常在噬菌体或酵母细胞平台中进行。动物免疫甚至人类 B 细胞筛选等体内发现平台利用瞬时生产方法来创建用于测试的抗体,这通常不会复制治疗开发过程。大部分商业治疗性抗体生产使用中国仓鼠卵巢 (CHO) 细胞,细胞和生产方法之间存在显著差异。
从概念上讲,从抗体序列开始,从序列鉴定和稳定的细胞转染到药物产品的配制,可获得的数据如图1所示,这同时也是对一个典型的生物疗法流程中的数据量的定性描述。
图1最常见的抗体发现和开发活动,以及这些活动中预计可获得的序列的大致数量。
在发现和最初的特征分析中,数据是很丰富,随着工作转向以生产为导向的细胞系,数据量急剧减少,使用深度学习的挑战增加。
在哺乳动物转染稳定的细胞系之前的早期开发阶段,有大量(并且不断增加)的数据可用于深度学习。由于每个后续步骤所需的努力和成本增加,可用的数据量急剧下降。这极大地限制了为支持这些后期步骤而进行的实际深度学习的数量。然而,这些是发展的关键步骤,了解所面临的挑战以及这些空间的深度学习可能是什么样子,是深度学习的一个应用部分。
有实验室方法可以在酵母中表达数十万甚至数百万的抗体,并且人们正在研究蛋白质序列和生物物理特性(如稳定性和溶解性)之间的关系。这些模型的开发仍然非常具有挑战,因为特定分子中特定位置的特定氨基酸类型与该分子显示的行为之间存在极强的非线性的关系。我们可以考虑简化一下,估计分子的化学和物理性质(例如,通过计算结构分子建模),并试图将这些性质与分子行为联系起来。在这里,深度学习也可以发挥一定的作用。
虽然可以从大型酵母数据集中估计表达水平,但这些估计对于哺乳动物细胞系中的预期表达只是模糊的“方向”。哺乳动物细胞和酵母细胞的个体细胞机制差异太大。此外,插入点(使用随机插入进行转染时)、拷贝数甚至特定细胞系都会对表达水平产生很大影响。更有可能的是,只有不能折叠或具有其他灾难性表达问题的极差序列才能从酵母结果中正确估计 CHO。然而,酵母对各种蛋白质的研究至少提供了证据,证明需要多少数据才能实现类似的 CHO 细胞系模型。
即使人们能够训练出可靠的机器学习预测器(如在特定溶剂中的溶解度或分子-分子相互作用的程度),更大的挑战是将这些行为映射到抗体的体外工艺开发任务或其体内的行为中。在这个空间中,几乎没有从过程行为到特定生物物理特性、结构特性或抗体序列的信息映射。对于这些关系,最关键的数据尚不存在,主要是因为选择偏差,即只有表现良好的分子和那些具有可接受的体内行为的分子才能进入工艺开发和药物配方,更不用说全面的体内表征。
最后一个挑战,也是深度学习可以提供最大好处的地方,即跨越以下复杂空间数据的设计。
跨越复杂空间数据的设计
1.细胞系
2.CDR多样性
3.抗体形式(例如,scFv、全长、Fab、Fc 融合、多特异性抗体)。
4.特定的序列倾向(例如,脱酰胺、异构化、糖基化位点)。
5.体内免疫原性和清除的可能性。
鉴于真正多样化的数据集,在很大程度上发挥这些特性的分子提供有针对性的抗体序列,从中可以收集更昂贵的数据。
在这项工作中,我们将讨论监督学习在抗体设计中的实用性,序列 liabilities的识别,以及使用无监督和自我监督学习来生成用于筛选和进一步分子表征的不同抗体集。
2 抗体开发中的监督学习
在抗体开发的背景下,监督学习的最常见形式是预测建模,其中分子的特性和行为是根据分子“特征”的某些表示来预测的,通常来自氨基酸序列或结构。此类模型的价值在于能够跳过可能缓慢、昂贵且产量非常低的体外或体内工作。给定准确的模型,分子设计可以加速甚至自动化。虽然经常使用机器学习,但由于数据可用性,深度学习现在才开始受到关注。
从分子特征预测行为有两种主要的途径;最经常尝试的方法是使用从分子建模中产生的抗体结构的一些中间表示,并使用一些经常手工挑选的特征集作为输入。第二种方法(从深度学习的努力中获得了更多的关注),是直接从氨基酸序列中进行预测,经常以单次编码(OHE)的形式对每个残基进行编码。第三种较新的方法是使用transformer模型,它采用OHE数据,并使用预先训练好的自我监督的深度学习模型,将每个残基的编码转换为一组可能捕获结构和化学信息的值。虽然这种方法太新了,无法与其他方法进行比较,来判断它是否更有效,但它使用深度学习来推导类似第一性原理的特性是很有趣的。
使用分子建模作为从序列到分子行为的中间步骤,作为一种减少输入特征的非线性的方法是有益的。这种简化使传统的机器学习方法得以使用,并允许用较小的数据集进行建模--这是很关键的一步,因为目前许多抗体开发数据集包含少于300个抗体。不幸的是,这种方法在模型上留下了人类和第一性原理的偏见。在建模过程中使用的力场所做的近似、以及该过程中的任何人为选择都会阻碍后续的机器学习模型。分子建模方法的准确性对变量预测施加了随机噪声和系统偏差,而分析者则对所选择的特征施加了他们的偏差。
将蛋白质序列和结构与生物物理特性联系起来的物理现象是复杂的,所有这些限制通常使这种方法不能成为许多特性的有力解决方案。随着更多数据的出现,深度学习应该可以减少对第一性原理特征选择的需求。
直接从序列进行预测的挑战在于,任何此类模型都需要捕获分子结构中描述的大部分非线性行为(例如,哪些残基彼此靠近并暴露于溶剂),然后才能将自由度扩展到预测感兴趣的属性。正如人们所预料的那样,这些方法需要大量数据。但是如果有足够的数据,他们在技术上几乎没有从特征选择中丢失信息:序列定义了绝大多数的抗体行为(忽略翻译后修饰)。挑战在于收集足够的体外数据。
例如,AlphaFold 从序列中识别静态蛋白质结构的工作非常有前景,并显示了此类任务所需的数据规模和架构复杂性。不幸的是,这些特定模型在抗体开发领域可能没有那么有用。抗体行为预测的真正关键更有可能隐藏在小尺度的距离和相互作用中,AlphaFold 模型根本无法在这个领域做出贡献。
另一方面,与 AlphaFold 模型处理的广义蛋白质问题不同,抗体序列和结构的很大一部分是如此保守,以至于同源性建模(使用预先存在的已知序列和结构作为起点)提供了一个非常合理的估计基础结构。这种高水平的保守性也允许使用基于结构的残基比对方法,这大大降低了必须从序列中推断出的潜在空间的复杂性。事实上,许多抗体和抗体样序列可以被转换成一个固定长度的输入向量,允许深度学习模型专注于推断残基之间的潜在关系,而无需不断变化的框架。
不过即使考虑到这些限制,在抗体设计的某些方面也存在数据集(或产生数据集的方法),使现代深度学习方法立即变得可行。在本节的其余部分,我们将描述目前的机器学习方法如何预测蛋白质的特性,并分享我们对哪些技术应该应用于抗体设计以及哪些不应该应用的评估。
2.1 生物物理学特性
生物物理性质预测是短期内监督深度学习最有前景的应用领域。目标分子的生物物理特性(包括溶解度、疏水性、热力学稳定性和胶体稳定性)会影响工艺开发的便利性和最终药物产品的稳定性。对于给定的分子,这些特性相对容易测量,并且可能适用于高通量测量(许多序列,一个或几个条件)。
大型蛋白质溶解度数据集(超过 10 万个蛋白质序列)的可用性最近为深度学习溶解度预测打开了大门。人们已经报道了几种深度学习算法,它们可以直接从蛋白质序列中将蛋白质分类为可溶性或不可溶性。DeepSol 算法使用卷积神经网络 (CNN),该网络将氨基酸序列作为输入,并输出相关蛋白质可溶的概率。SKADE 算法在同一任务上使用基于注意力的深度学习模型。虽然这些模型不能立即应用于抗体工程(可溶性与不可溶性分类数据集不太可能编码与少量突变的小溶解度变化相关的更微妙的模式),但它们证明溶解度是可以从一级序列预测的。将直接来自序列的深度学习算法应用于数千种不同抗体序列的定量(或半定量)溶解度数据,应该会产生有价值的溶解度调节预测因子。这样的数据集并不公开,但学术实验室和生物制药公司有能力创建一个数据集。
研究人员还报告了抗体疏水性的预测模型,对超过 5000 个抗体抗原结合片段的疏水相互作用色谱保留时间测量进行了训练。Jain等人使用该数据集创建两个传统的机器学习预测器来预测(1)来自工程序列特征的溶剂可及表面积(SASA)和(2)来自 SASA 的HIC RT类。这些模型的任务是预测片段是否会在一个任意的参考截止点之前或之后洗脱,而不是定量地预测HIC RT。在超过5000个独特的序列测量例子中,HIC RT数据集已经接近现代深度学习算法(如上述的溶解度预测器)的实用性。
2.2 产品质量属性
产品质量属性(PQAs),特别是翻译后修饰,如脱酰胺化、异构化和糖基化,是预测建模的有趣目标。对PQAs的控制可以确保药物的清洁、有效。PQA只能从序列和结构中部分预测。诸如表达系统和培养条件等外部过程因素也会影响 PQAs。每个PQA数据点也是相对资源密集型的,在某些情况下需要依靠先进的质谱技术进行精确的定量。PQA 数据集在很大程度上仍局限于数据匮乏,但有一些 PQA 监督预测的例子。
最近发表的一篇关于机器学习的脱酰胺预测的文章为PQA的监督学习的现状提供了一个说明性的例子。在这项工作中,作者使用序列和结构特征的组合(从基于序列的同源性模型中计算),使用随机森林模型进行分类和回归,预测天冬酰胺脱酰胺率。这些模型是根据少于50个mAbs的几百个独特的天冬酰胺位点的脱酰胺半衰期数据进行训练的,每个蛋白质在40℃和pH8.0下培养4周的过程中,通过液相色谱串联质谱计算出的速率。虽然不稳定与非不稳定天冬酰胺位点的分类明显可用于不同的蛋白质类型和环境条件,但回归模型不太可能与在mAb制造过程中经历的各种环境条件下观察到的相同蛋白质的脱酰胺率在数量上一致。尽管如此,这样的统计模型对于在药物开发的早期阶段对明显不好的分子进行初步的计算筛选应该是有用的。
也有报道说使用机器学习来预测mAb在CHO细胞中的糖型分布,最近的例子是使用人工神经网络。Kotidis和Kontoravdi训练的神经网络能够预测不同培养条件下固定mAb序列的糖型分布。蛋白质序列和细胞培养条件之间可能存在着复杂的、非线性的互动。预测一种蛋白质的特异性糖基化分布的神经网络无法推广到其他的mAb,限制了它们在药物开发活动的候选筛选阶段的实际应用。随着时间和资源的投入,为不同的抗体集采集糖基化数据,Kotidis和Kontoravdi描述的方法的效用将得到改善。
虽然很有希望,但结果还需要与细胞类型、转染方法、培养基组成,甚至生产模式(分批与连续灌注)保持一致,因为这些都会对 PQA 产生影响。特定于给定生产细胞系的数据可能是必要的。如果该行业采用一些标准流程方法,这些模型应该会变得更加可迁移。
2.3 工艺中的行为
抗体过程行为的直接预测是抗体设计中监督学习的圣杯。在生产过程的每个单元操作中预测给定分子的最佳性能,并识别突变以提高该性能可以显着减少工艺开发中的实验工作。然而,生物过程的动态特性意味着分子性能的任何度量也将取决于过程操作条件。工作台或生产规模的单元操作(例如,生物反应器细胞培养和色谱分离)既昂贵又耗时。在实验室规模上收集足够的实验数据来训练深度学习模型以了解分子和过程自由度之间的复杂相互作用可能是不可能的(至少是不切实际的)(想想 10-100k 色谱柱运行不同的集合抗体、树脂和操作条件)。幸运的是,创造性地使用高通量“缩小模型”(在数十、数百甚至数千规模的多孔板中工作的实验室方法)和混合计算机建模方法为过程行为预测建模提供了一线希望。
缩小模型以更低的成本提供更高的通量,从而促进更广泛地覆盖可能影响给定分子性能的过程自由度。随着数据点增多,缩小模型为深度学习所需的海量数据集提供了一条有吸引力的途径。
在工艺行为预测中,有两个有希望的方面是使用毫升规模的生物反应器来收集生产力数据和小规模的纯化实验。Gagliardi等人展示了一个使用这种小规模生物反应器系统进行生产力预测的例子。通过定制一个高通量细胞培养系统,以模拟灌注的形式运行,Gagliardi等人在10-15毫升规模的生物反应器中操作了24-48个生物反应器,这些生物反应器可以预测10L灌注培养中的克隆性能和介质效应。这意味着一位科学家可以筛选的克隆和培养条件的数量大大增加。
小规模的纯化形式也有类似的成功报道。在微孔板中的批量吸收实验和由液体处理机器人进行的小型化柱子运行可用于筛选许多树脂和缓冲液条件,所需的蛋白质材料比台式色谱法少得多。然而,这些高通量的形式伴随着近似的成本,这意味着可能需要中间模型或计算的修正来在尺度之间映射。这种将第一性原理知识与深度学习相结合的做法似乎是有限的,但很有希望。
在同一领域,细胞培养和纯化过程的模型可用于通过数值模拟创建大型计算机数据集。这种方法已被用于预测 CHO 的生长和生产力,色谱建模,并根据运行条件预测性能。这些作为数据源可能是有效的,但重要的是要注意,任何嵌入到基础数据中的假设都将嵌入到从这些数据中训练出来的深度学习模型中。如果不引入实验数据,是不可能摆脱这些假设的。
摆脱第一原理陷阱和无法训练可归纳的监督生物物理模型的可能途径,是使用生成性无监督模型来创建更好的数据集。
3 抗体开发中的无监督学习
监督学习受到训练参考值不足的挑战,而无监督方法仅在单个数据块(通常是抗体序列或结构特性)上运行,因此受到数据不足挑战的限制要小得多。结合收集人类测序数据的能力的重大进步,无监督和自我监督的深度学习模型已成为更合理的方法。虽然这些方法不能明确地与抗体生产流程中的特性相关联(例如,根据序列预测保留时间),但它们仍然是了解抗体行为空间复杂性的最可行途径。它们还为开发用于监督学习的丰富数据集提供了一种关键方法。
抗体空间的无监督模型,如生成对抗网络(GANs)和自动编码器,正被用来创建大型的、多样化的抗体库,以达到发现的目的,以及有意设计抗体集进行筛选和进一步学习下游的特性。
这些生成模型的目标是在给定真实样本的示例数据集的情况下创建多样化的、超现实的合成候选物。精心策划的人类数据集,例如 Observed Antibody Space (OAS),提供丰富的人类抗体序列数据源。生成器可以在人类抗体库上进行训练,然后产生大型、多样化的合成抗体库,这些抗体在序列上是唯一的,但在其他方面与人类库抗体无法区分。这种抗体库生成方法允许使用迁移学习明确控制给定库中抗体的特性。
还有一些应用模型被用来生成特定靶点/抗原的结合物库。变分自动编码器已与高斯混合模型配合使用,以允许针对特定目标对抗体 CDR 进行潜在空间聚类。该模型允许用户在潜在空间的集群中导航,以生成针对给定目标的新型结合物。这种方法可以被看作是在计算机上分析 CDR 亲和力的一种手段,给定一组抗原的hits,在文库筛选之后。
最后,一个对抗体开发有重大潜在好处的深度学习方法是自我监督学习。这是一种无监督学习的形式,在这种学习中,模型被要求完成自我监督或预训练的任务,以学习一种在各种实际下游任务中有用的中间表示。这些方法最近被用于蛋白质空间,以学习捕捉蛋白质结构和行为的表征。预训练任务通常采用掩蔽语言建模(Masked Language Modeling,MLM),如掩蔽蛋白质序列中的一个或多个残基,并让模型在剩下的序列中预测该残基的氨基酸。
在抗体领域,这种类型的预训练任务可用于学习框架区域中有意义的表示和嵌入,以帮助完成复杂的下游设计、分类、聚类和分析任务。人们还基于 Transformer 的模型,例如 BERT 和 GPT,利用掩码语言建模并使用注意机制来捕获序列数据中的长程上下文关系。由于抗体相对较长的蛋白质序列和复杂的结构,这些模型在抗体领域可能特别有用,其中长程上下文非常重要。
最后一点,如前所述,许多通用蛋白质序列任务必须学习广泛的三维折叠和相互作用,并能够从中得出序列的重要性。相比之下,抗体模型可以利用序列和结构的大量保守性。如此多的抗体序列是保守的,即使是跨物种抗体也显示出很强的比对特征,例如骆驼VHH结构域和人类VH结构域。
Transformer 模型的工作表明,这些新流行的模型架构可用于捕捉残基之间的进化模式和概率,包括难以观察的潜在非常深的关系。然后可以使用这种学习表示来评估与这些学习表示相比的序列,包括残基替换机会。
3.1 无监督和自监督模型的迁移学习
虽然 GAN 和 MLM 模型是强大的生成和定性评估工具,但使用迁移学习来进一步调整这些模型的能力可能是这些方法真正的变革力量。借助已捕获更大范围的抗体序列关系的训练模型,我们可以应用迁移学习将这些模型集中到抗体类型的子集上。这使生成或评估模型适应生成或寻找具有特定特征的抗体,例如低清除率 (PK)、更好的热稳定性和一般可开发性的抗体。
事实上,这就是无监督和有监督的模型开始融合的地方(从哲学的角度,而不是从数字的角度)。如果我们能从有监督的模型中找出与特定可发展性特征相关的分子特征,我们就可以利用这些知识来重新训练无监督和自我监督的模型,以避免或诱发此类特征和特性。同样地,即使没有监督模型,我们也可以采用特征良好的表达抗体集,并使用迁移学习使我们的生成和评估模型偏向于该集的特征。所有这一切都是在不一定具有特定的行为的第一性原理模型的情况下完成的,而只需要知道用于迁移学习的给定集合具有特定的特征或感兴趣的行为。
众所周知,这种迁移学习模型是从抗体序列空间的可能粗略近似中训练出来的。训练数据永远无法完全捕获显示行为的所有序列的空间。但即使在这个近似值内,偏向于诸如更好的溶解性、更长的shelf稳定性、更低的粘度或更长的半衰期等特征也可能对抗体治疗的成本、可用性和有效性产生重大影响。
这些模型的迁移学习路径也为为监督学习应用生成高度多样化的训练数据打开了大门,从而进一步完善了模型的预测能力和我们对潜在生物物理行为的理解。不必依赖从体内实验中恢复的“发现”序列,带有迁移学习的生成方法可以开发出具有特定属性的几乎无尽的抗体序列。这种控制将允许生成数据以合理和具体地测试抗体可开发性特征和行为的理论。
4 结论
深度学习在抗体开发领域发挥着关键作用。从序列到生物物理特性,再到工艺优化和最终药物的表现,所有点上的复杂非线性行为使得小规模机器学习具有挑战性。但要实现这一深度学习目标,抗体开发科学家必须找到收集所需数据的新方法,或者在计算机上生成适当的真实数据的方法。
虽然目前在可开发方面的小数据训练机器学习模型还有很多不足之处,但有一个光明的未来。实验室方法不断推动高通量表达和数据收集。在抗体开发早期从深度学习中获得的知识的推动下,我们应该能够充分利用这些体外实验。
最后,专注于从发现到最终药物被给予患者的整个路径是至关重要的。深度学习中的每一个中间成功都是有用的,但道路是漫长的。如果业界继续专注于引导这些努力,提高抗体生物治疗的质量和成本,深度学习就会产生影响。
参考资料
Shaver JM, Smith J, Amimeur T. Deep Learning in Therapeutic Antibody Development. Methods Mol Biol. 2022;2390:433-445. doi: 10.1007/978-1-0716-1787-8_19.
--------- End ---------