作者 | 李昊锦 校对 | 李仲深
今天要介绍的是清华大学交叉信息研究院曾坚阳教授在Bioinformatics发表的一篇关于多肽与MHC I类的结合预测的论文。在癌症治疗疫苗的开发中预测与主要组织相容性复合体(MHC,Major Histocompatibility Complex)结合的多肽有至关重要的作用。作者提出了一种基于注意力机制的深度神经网络预测框架 - ACME。作者在ACME的网络框架引入了注意力机制模块,使模型具有很好的可解释性,为多肽与MHC的结合偏好分析提供有用的见解。实验结果表明,ACME显著优于其他现有的预测方法。
一、研究背景
在启动识别和杀伤癌细胞的免疫反应中,Ⅰ类主要组织相容性复合体(MHC Class I)对抗原肽的呈递起着至关重要的作用。从癌细胞突变蛋白中提取的多肽在被改造成癌症疫苗后,可以刺激针对癌细胞的特异性免疫反应,呈现抗原肽。然而,在大多数情况下多肽需要与IC(50)<500 nM的高效MHC分子结合才能有效地引起免疫反应。因此,多肽与MHC结合是抗原呈递过程中的关键。识别能与MHC分子结合的多肽是开发癌症疫苗的重要步骤之一。
过去二十年里,有两种常用的计算方法:(i)等位基因特异性预测方法通常为每个MHC等位基因(MHC alleles)训练一个模型。但该方法需要根据等位基因对数据集进行划分,因此很难对数据不足的等位基因进行准确预测。(ii) 另一类机器学习算法将多肽和MHC序列作为输入特征,将不同等位基因的数据汇集在一起,为所有等位基因训练一个共同的模型。然而,现有的方法都相对简单,同时也缺乏可解释性。
为此,作者提出一种可解释的预测多肽-MHC结合模型-ACME,该模型将深度卷积神经网络与注意力模块相结合,整合了从卷积网络多个层次提取的特征,有效捕捉了多肽与MHC结合的内在特征,建立了一个准确且可解释的预测模型。
二、模型与方法
2.1 数据编码
ACME的输入数据包括多肽和MHC序列,它们都通过BLOSUM50评分矩阵编码。每个肽以对端方式编码到24×20矩阵中。矩阵的前12行是多肽的N端编码,而最后12行是C端编码。对于短于12个残基的肽,中间的空位用零填充。在编码MHC序列时,作者只考虑那些与肽紧密结合的残基。这些残基形成一个短序列,称为MHC伪序列(MHC Pseudo sequence)。选择34个这样的残基并编码到34×20矩阵中,其中每个残基由BLOSUM50矩阵中的相应行表示。
2.2 网络架构
主要由卷积模块和注意力模块组成(如图1所示)。ACME首先将编码肽和MHC伪序列通过一个卷积层进行初始特征提取,然后将提取的特征映射到卷积模块和注意力模块。之后,将这两个模块的输出合并在一起进行最终预测。
图1 ACME网络架构
卷积模块中,MHC特征首先经过max pooling,然后是另一轮一维卷积和max pooling,而肽特征由于其序列长度短(即9-12个残基)而没有进行卷积和pooling操作。经过0轮、1轮和2轮的卷积和max pooling操作后提取的MHC特征分别与肽特征图连接,从而保留不同水平的MHC特征。然后,每个连接层分别跟着一个全连接操作。最后,这三个全连接层的输出拼接在一起,并进行两个连续的全连接操作得到卷积模块的最终输出。
注意力模块将特征映射矩阵F映射成一个注意权向量w,并通过softmax标准化将w中的每个元素
转换成
,然后使用行向量来计算它们的加权平均
。(如图2所示)。
图2. 注意力模块
三、实验结果
3.1 ACME的预测性能
首先,作者在IEDB数据集上对ACME与经典的NetMHCpan3.0方法进行对比。使用皮尔逊相关系数(Person’s CorrelationCoefficient,PCC)来评估模型的预测能力。实验结果表明ACME获得了更好的预测结果。在三种不同长度(11,10,和9氨基酸)的多肽数据集上,相比于NetMHCpan 3.0,ACME在PCC指标上分别提升了11%、5.3%和3.4%(如图3所示)。此外作者将肽-MHC结合问题作为二元分类任务,并使用AUROC评估ACME的预测性能。实验结果显示,ACME的性能优于NetMHCpan 3.0。
此外,作者将ACME模型与较新的ConvMHC模型在多肽与MHC结合预测性能方面进行了对比。值得注意的是,ConvMHC只能应用于长度为9的多肽上。在这个长度的多肽上,ACME的准确率比ConvMHC 高1.2%。而除了长度为9的多肽,ACME还可以对不同长度的多肽进行精确预测。因为,ACME编码策略可以有效地结合关键肽特征,这些特征通常位于肽的两端,因此对肽长度的变化不敏感。
图3. 预测性能比较
3.2 ACME的泛化能力
作者还进行了两个额外的测试来评估ACME的泛化能力。首先在30个独立数据集(即最新的IEDB基准数据集)上测试了ACME,并将其预测性能与先前方法的预测性能进行了比较。实验结果显示,其他方法的Spearman秩相关系数(SRCC)大致处于同一水平,而ACME则取得了更好的性能,SRCC的改善率约为5%(如图4(a)、(b)、(c))。
图4. ACME泛化能力测试
此外,作者还研究了ACME是否可以对全新的等位基因(没有在训练样本出现)或者罕见的MHC等位基因(在模型中的训练样本量较少)进行精确的结合预测。作者选择了常见和罕见的MHC等位基因作为代表进行测试(如图4(d)、(e))。ACME仍然可以获得良好的预测性能,在所有13个被测等位基因中,PCC平均得分为0.81,接近那些具有训练数据的等位基因的预测性能。这一实验结果表明,ACME可以充分利用现有训练数据中常见等位基因的知识,对训练数据较少或没有训练数据的新等位基因进行精确预测。
3.3 ACME揭示了多肽-MHC结合的基本规则
为了说明该模型的可解释性,作者评估了引入了在模型中注意力机制分配给每个位置的注意值的质量。验证了注意值较高的位置往往会做出更大的贡献,并且具有较高注意值的位置往往对ACME框架中MHC肽结合的预测的贡献较大。此外,作者可视化了几个MHC等位基因的基序(如图5所示),以观察在先前研究中报告的不同肽位置对氨基酸类型的相似偏好。通过将ACME发现的序列基序与之前发现的肽-MHC复合物的结构特征进行比对,ACME也能够捕捉到由于不同MHC分子的多态性而引起的局部生化环境的差异。
图5. 与不同MHC等位基因结合的肽序列基序
四、总结
作者在这个工作中提出了一种新的深度学习框架ACME,用于多肽-MHC I类结合预测。该算法使用卷积神经网络来学习从多肽和MHC序列中提取的特征,并利用注意力机制提取可解释的结合模式。在现有基准数据集上的多项实验结果表明,ACME的预测性能优于其他现有的方法。此外,ACME还可用于精确生成不同MHC等位基因的结合基序,可进一步用于研究肽MHCⅠ类结合的模式。
代码
https://github.com/HYsxe/ACME
数据集
http://tools.immuneepitope.org/mhci/download/
参考文献
ACME: pan-specific peptide–MHC class Ibinding prediction through attention-based deep neural networks .Bioinformatics,Volume 35, Issue 23, 1 December 2019, Pages 4946–4954
https://academic.oup.com/bioinformatics/article/35/23/4946/5497763