作者 | 李昊锦 校对 | 李昊锦
今天要介绍的是西奈山伊坎医学院遗传学和基因组科学系Timothy J. O'Donnell在Cell Systems上发表的论文” MHCflurry 2.0:Improved Pan-Allele Prediction of MHC Class I-Presented Peptides byIncorporating Antigen Processing”。主要组织相容性复合物(MHC,major histocompatibility complex)Ⅰ类蛋白与多肽的结合预测是研究T细胞免疫的重要工具。通过质谱法鉴定的自然存在的MHC配体,不仅阐明了结合基序,而且可以反映MHC结合之前发生的抗原加工步骤。因此,作者开发了一个MHCⅠ类表达的综合预测因子,它结合了MHCⅠ类结合和抗原加工的新模型。实验结果表明,该模型显著优于其他现有的预测方法。
一、研究背景
MHC I类呈递多肽的预测是疫苗设计和传染病、自身免疫和癌症研究的关键工具。目前使用的大多数预测工具仅关注MHC I类结合特性(BA)预测。虽然已经有人提出了针对个体抗原加工(AP)步骤的小数据集的预测因子,并与BA预测相结合以给出综合得分,但在这些方法的数据量都较小。而近期质谱(MS)识别MHC I类配体的大数据集的积累为使用更大和更具生物相关性的数据集来重新研究AP预测提供了机会。
在本文中,作者开发了MHC等位基因依赖效应(BA预测)和等位基因独立效应(AP预测)的独立预测因子。作者首先使用两层全连接神经网络通过偏好度量和MS数据集训练了一个新的泛等位基因预测因子称为MHC-flurry 2.0-BA以获得MHC I类配体信息。之后结合MS识别的多肽(hits)与未识别到的多肽(decoys)生成AP模型的训练集以结合MHCI类等位基因信息。作者使用一个卷积层、两个分别用于预测多肽N-terminal cut、C-terminal cut的平行卷积层以及一层全连接层来训练AP预测因子。作者将BA和使用卷积神经网络生成的AP预测因子整合在逻辑回归模型中,称为presentation score(PS)(MHC FLURRY 2.0 PS)。实验结果表明,PS预测值优于其组件模型和常用的NetMHCpan 4.0和MixMHCpred 2.0.2预测值。
二、实验结果
作者首先测试了新的MHC flurry2.0 BA预测因子(如图1A),并从其训练数据中得出质谱识别的MHC配体。该预测因子对大多数等位基因表现良好。为了与现有的BA(NetMHCpan 4.0 BA)和MS配体(NetMHCpan 4.0洗脱配体和MIXMCPRED 2.0.2)预测值进行比较,作者使用已发布的MS识别MHC配体数据集编制了一个新基准。由于在这些实验中确定的肽可能与在个体中表达的六个经典MHC I类等位基因中的任何一个结合,作者将其称为MULTIALLELIC基准。MHCflurry BA在区分MS-hits与从相同蛋白质中取样的decoys的AUC方面表现最好,在多个样本上优于NetMHCpan-BA、NetMHCpan-EL、 MixMHCpred(图1B)。
图1.BA预测因子与实验对比
作者通过包含一组100MS的实验来扩大评估范围,这些实验使用基因工程的细胞系来表达单个MHC I类等位基因,因此被称之为MONOALLELIC基准(如图2)。值得注意的是,与现有的工具相比,该方法在AUC和PPV上均有明显提高,并且在训练数据中没有表现的等位基因上也有改善。这些观察结果表明,MHCflurry BA具有一定的泛化能力。
图2. BA预测因子MONOALLELIC基准上实验结果
另外作者开发了一个MHC I类等位基因独立模型称为MHC FLURRY 2.0 AP,用于区分hits和decoys。它的神经网络结构包含了多肽N端和C端裂解或加工信号(图3A)。作者在MONOALLELIC基准数据集上使用卷积神经网络训练了两个版本的AP预测器:一个预测因子包括肽加上其源蛋白的五个直接上游和下游残基;第二个预测因子仅包括肽。
图3. AP预测因子结构与实验对比
作者在MULTIALLELIC基准上评估了MHC FLURRY 2.0 AP的准确性(图3B)。虽然它们没有将MHC等位基因作为输入,但平均AUC仍取得较大值。这表明MHCflurry AP预测因子已经从单等位基因MS训练集中获得了一个有意义的MHCⅠ类等位基因独立信号。
另外作者通过AP预测对多等位基因基准中的所有长度为9的多肽进行排序,计算出前1%最高预测值的位置权重矩阵,并绘制了序列标识(图3C)。该分析显示,半胱氨酸在整个多肽中的hits缺失,这是MS的已知偏差。为了验证AP预测因子的准确性是否可能取决于其对这种偏差的建模,作者在去除含有半胱氨酸的肽(hits和decoys)后,在MONOALLELIC基准上重复AUC分析。该分析显示了与先前分析非常相似的AUC值。因此,虽然AP预测因子学习到半胱氨酸MS偏差,但这一效应并不是其表现的主要驱动力。
为了评估AP预测因子学习到MHC FLURRY BA预测因子也学习到的信号的程度,作者测量了BA训练集中HLA-A、HLA-B和HLA-C等位基因的多肽AP和BA预测之间的相关性。实验结果表明,这些相关性是正的,但幅度不大,AP与BA之间的相关性并不高, AP预测值至少与MHC FLURRY BA预测值部分非冗余。
最后作者使用逻辑回归模型结合了AP预测因子与BA预测因子,称为MHCflurryPS预测因子。通过实验结果表明,该模型在AUC、PPV上相比两个单独预测因子以及现有其他模型均有改善(如图4C)。
图4. 模型整体结构及实验
三、总结
MHCⅠ类配体预测方法包括两个神经网络模型:MHCflurryBA预测因子和MHCflurry AP预测因子。AP预测器被训练来学习BA预测器漏掉了什么,即在预测与MHCⅠ类紧密结合的多肽中,区分MS-hits和decoys的残基序列特性。这两个预测因子都是在单等位基因MS数据集上训练的,并且他们的结果使用逻辑回归模型进行组合。当在多等位基因质谱实验中进行评估时, MHCflurry PS的表现优于单个预测因子和现有标准工具。
本研究的一个重要局限是,将MS检测到的MHCⅠ类配体数据集应用于训练和基准预测。作者期望由AP预测器模拟的分析偏差有可能错误地影响准确性。虽然半胱氨酸的消耗似乎对AP预测准确性没有显著影响,但不能排除其他类型偏差的贡献。作者工作也只涉及MHCⅠ类配体表达的步骤,而不是T细胞对所呈现表位的识别。未来的工作需要评估此处所述的预测因子是否能够改进T细胞表位的预测。
代码
github.com/openvax/mhcflurry
参考文献
TimothyJ.O’Donnell,AlexRubinsteyn,Uri Laserson,” MHCflurry 2.0:Improved Pan-Allele Prediction of MHC ClassI-Presented Peptides by Incorporating Antigen Processing”
https://doi.org/10.1016/j.cels.2020.06.010