2019年12月,洛桑联邦理工学院和瑞士生物信息研究所的研究者在nature methods上提出使用分子表面的化学和几何指纹,来预测蛋白质和其他分子间的相互作用。
1
介绍
蛋白质与其他生物分子之间的相互作用是大多数生物过程中蛋白质功能的基础。仅从结构预测这些相互作用仍然是结构生物学中最重要的挑战之一。许多程序通过利用蛋白质序列和结构中的进化特征有效地预测了这些相互作用,但是这些方法需要了解同源蛋白质。分子表面是蛋白质结构的高级表征,将蛋白质建模为具有几何和化学特征的连续形状。研究者提出分子表面具有化学和几何特征的指纹,以揭示有关蛋白质与其他生物分子相互作用的信息。研究者的中心假设是,没有序列同源性且经历相似的生物分子相互作用的蛋白质可能显示相似的模式,这很难通过视觉分析来掌握,但可以从大规模数据集中学习。在这里,研究者介绍了MaSIF(molecular surface interaction fingerprinting)一种通用的几何深度学习方法,可以识别和破译蛋白质表面上的图案,而无需明确考虑潜在的蛋白质序列或结构折叠。
描述蛋白质结构的分子表面表征(图1a)已用于涉及蛋白质相互作用的许多任务,且已成为研究蛋白质与溶剂静电相互作用的首选结构描述。最近,几种方法已经捕获了具有功能相关性的分子表面图案,例如三维Zernike描述符和几何不变指纹(GIF, geometric invariant fingerprint)。这些方法提出了“人工”描述符,即描述蛋白质表面特征的人工优化载体。因为很难先验地确定给定预测任务的正确特征集,所以这些方法的范围受到限制。
几何深度学习是一个新兴领域,其成功的将基于图像的深度神经网络架构(CNN)扩展到几何数据(例如曲面),这些技术已显示出优于人工特征提取的能力。MaSIF利用几何深度学习来学习蛋白质分子表面中的相互作用指纹。分子表面数据是在测地空间中描述的,这意味着两点之间的距离对应于沿着表面的两点之间的“行走”距离。在高度不规则的蛋白质表面(例如口袋),测地距离可能远大于欧几里得距离。首先,MaSIF将表面分解为具有固定测地半径的重叠径向小块(图1a,b)。小块中的每个点都分配有一系列几何和化学输入特征(图1b)。无法了解输入特征(化学和几何形状),它们是从分子表面预先计算的特性。然后,MaSIF学习将表面小块的输入特征嵌入为数字矢量描述符(图1d)。每个描述符都由应用程序的神经网络层进一步处理。网络是端到端训练的,意味着小块的描述符不是通用的,而是针对特定任务优化的。
图1
此项研究工作展示了MaSIF的三个概念验证应用程序(图1e):(1)MaSIF-ligand:配体口袋相似性比较;(2)MaSIF-site:蛋白质表面中的蛋白质-蛋白质相互作用(PPI)部位预测 (3)MaSIF-search:超快速表面扫描,利用表面指纹预测蛋白质-蛋白质复合物的构型。MaSIF框架对于没有共同进化祖先的蛋白质之间寻找相似相互作用指纹的生物学家很有用。MaSIF代表了对欧几里得结构表示学习的偏离,并使人们认识到蛋白质功能和设计的重要结构特征。
2
MaSIF:学习蛋白质表面指纹的通用框架
研究者从蛋白质结构中计算出离散的分子表面(不包括溶剂表面),并将几何和化学特征分配给网格中的每个顶点(图1a,b)。围绕网格的每个顶点,提取测地半径r = 9Å或r = 12Å的小块(图1b)。小块半径的选择取决于应用程序,在具有多个测地卷积层的体系结构中,由于内存限制,研究者使用较小的小块。对于小块中的每个顶点,计算两个几何特征(形状指数和与距离相关的曲率)和三个化学特征(亲水指数、连续性静电以及自由电子和质子供体的位置)。为小块内的顶点分配了测地极坐标(图1c)、径向坐标(代表到小块中心的测地距离)和角坐标(相对于从小块中心的随机方向计算)。通过几何特征(形状指数和与距离相关的曲率)和测地极坐标隐式描述了表面的几何结构(例如表面凹穴的“深度”)。
MaSIF使用极坐标对输入特征应用几何深度神经网络,以在空间上定位特征。神经网络由顺序应用的一层或多层组成。该体系结构的关键组件是测地卷积,将经典卷积推广到曲面并实现为对局部面的操作。在极坐标中,研究者构造了一个在局部测地极坐标系统中定义的高斯核系统,且参数是可学习的。可学习高斯内核局部平均顶点方向的小块特征并产生固定尺寸的输出,该输出与一组可学习的过滤相关。研究者将此可学习的高斯核族称为学习的软极坐标网格。
然后将具有一组过滤的卷积层应用于软极坐标网格层的输出。由于角坐标是相对于随机方向计算的,因此必须计算对于不同方向不变的信息。为此,研究者对小块执行K旋转,并计算所有旋转的最大值,从而生成小块位置的测地卷积输出。对不同小块位置重复此过程,类似于在图像上进行滑动窗口操作,以矢量的形式在每个点生成表面指纹描述符,该矢量嵌入有关中心点及其邻域的表面图案信息。学习过程包括就特定于应用程序的训练数据和代价函数,最小化局部内核的参数集和过滤器权重。因此,参数集特定于此处介绍的每个应用程序。
通过此框架,研究者为表面的小块创建了描述符,可以在神经网络体系结构中对其进一步处理。接下来介绍各种方法来利用它们识别蛋白质表面上的相互作用指纹。
3
方法
3.1 分子表面计算
数据集中的所有蛋白质均使用Reduce质子化,并使用MSMS程序进行三角剖分。然后对蛋白质网格进行下采样,并使用peshesh将其分辨率调整为1Å。几何和化学特征直接在蛋白质网格上进行计算,但距离相关的曲率除外,后者是根据每个小块中顶点的表面法线在每个小块上计算。
3.2蛋白质分解为重叠的放射状小块和特征计算
对于离散化蛋白质表面网格中的每个点,提取了一个测地半径为9或12Å的径向小块,以对小块的表面特征进行分析。半径的选择是经验性的,主要由性能和内存限制决定。对于MaSIF-search选择12Å,因为研究人员发现这对于覆盖许多PPI的掩埋表面积是一个不错的选择,此小块大小已重新用于MaSIF-ligand。为MaSIF-site选择了9Å的小块,因为较小的小块使研究人员可以在可用的内存资源中进行多个卷积层,这对于该应用程序至关重要。在没有内存限制的情况下,大于12Å的小块将是理想的,因为MaSIF的几何深度学习体系结构能够为不同的测地群集内核分配不同的权重。
3.2.1形状索引
形状索引描述相对于局部曲率表面上每个点周围的形状。值的范围是-1到 1。关于曲率κ1,κ2,κ1≥κ2定义为:
3.2.2距离相关曲率
对于提取的小块中的每个顶点,距离相关曲率的计算范围为[-0.7,0.7],该值描述了到中心的距离与每个点和中心点的表面法线之间的关系。虽然主要曲率分量描述了完整蛋白质中每个顶点周围的形状,但研究者发现使用小块的中心作为参考来计算每个小块内的曲率也是有益的。
3.2.3Poisson-Boltzmann连续静电
PDB2PQR用于蛋白质的静电计算,而APBS用于计算每种蛋白质的Poisson-Boltzmann静电。使用APBS提供的Multivalue分配了网格化曲面的每个顶点处的相应电荷。高于 30和低于-30的电荷值被限制,然后将值归一化为-1和1之间。
3.2.4自由电子和质子供体
使用氢键电势作为参考来计算分子表面中自由电子和氢键供体的位置。分子表面中最接近原子的是极性氢,氮或氧的顶点被认为是氢键的潜在供体或受体。然后,根据重原子之间的方向,将高斯分布的值分配给每个顶点。这些值的范围是从-1(氢键受体的最佳位置)到 1(氢键供体的最佳位置)。
3.2.5亲水性
根据最接近该顶点的原子的氨基酸身份的Kyte和Doolittle标度,为每个顶点分配亲水性标量值。这些值的原始范围为-4.5(亲水)至 4.5(最疏水),然后将其标准化为-1到1。
3.3测地极坐标计算
从蛋白质提表面取小块后,MaSIF将使用测地极坐标系来映射顶点在径向(即距中心的测地距离)和角坐标(即相对于随机方向的角度)中的位置。相对于小块中心(图1c),这些坐标将有关特征之间的空间关系的信息添加到学习方法中。
3.3.1测地距离
在连续的表面上,测地线是在表面上“行走”时连接两个点的最短路径(曲线)。两点之间的测地线距离是两点之间的测地线长度。在网格上,测地线是两个顶点之间最短的多段线。在图上,测地线是连接两个顶点的相邻图边的集合。网格上测地线的计算可以使用快速前进方法精确地或近似地计算。为了提高计算效率,研究者使用带测边的图测地线作为真实测地线的近似值。
3.3.2径向坐标
描述点到小块中心的测地距离。由于速度快,研究者使用了在MATLAB中实现的Dijkstra算法来计算真实测地距离的近似值。因此,现实中测地线距离是连接表面网格图上定义的节点的边长之和。
3.3.3角坐标
使用在MATLAB中实现的经典多维比例缩放算法,根据Dijkstra逼近所有顶点之间的成对测地距离,将小块展平到平面中。由于分子表面小块没有规范取向,因此选择计算平面中的随机方向作为参考,并将每个顶点与平面中该参考的角度设置为角坐标。
3.4基于学习软极网格进行几何深度学习
几何深度学习能够将基于图像的深度神经网络架构应用于几何数据。可以将图像分析中使用的传统CNN视为在图像中滑动窗口。在窗口的每个位置,都会提取像素块。然后,将每个像素乘以相应的可学习过滤值,然后将结果相加。蛋白质分子表面上没有规则的网格,因此将其替换为在局部测地极坐标系中定义为“软像素”的高斯核系统。高斯的参数是可以自己学习的。因此,将此高斯核系统称为学习型软极网格。
3.4.1旋转不变性
通过执行输入小块的θ旋转并在输出上执行最大池操作,可以在神经网络中处理旋转不变性。
3.5 MaSIF-ligand: 配体位点预测和分类
数据集
从PDB下载了与所选辅因子(ADP,COA,FAD,HEM,NAD,NAP或SAM )结合的蛋白,并使用SBI构建了它们的生物分子组装体。
神经网络架构、代价函数和训练优化
从一个结合口袋中随机采样32个小块。每个小块都用作网络中的输入,并映射到具有16个角形仓和五个径向形仓的学习型软网格。每种特征类型都通过单独的神经网络通道运行,在此通道中,学习型软网格层后面是带过滤的卷积层,具有16个旋转角的最大池化层,整流线性和完全连接层。然后,一个完全连接层将每个通道的输出合并,并输出到80维指纹。将所得的32个指纹相乘生成80×80协方差矩阵。将协方差矩阵展平并首先馈入经过整流线性激活的64个单元的全连接层,然后馈送到具有线性激活的7个单元的全连接层,其次是softmax交叉熵损失。使用Adam优化器对网络进行了20,000次迭代训练,学习速率为1×10-4。每个时期评估验证错误,并根据该值选择最佳网络。出于以下三个原因,最初选择随机采样32个小块:(1)每个小块覆盖12Å半径,因此,有32个小块很可能覆盖整个凹坑的表面;(2)数量足够少,以至于所有配体类型都至少与许多小块中心接触;(3)由于内存限制,因为大量小块超出了研究人员图形处理单元(GPU)的存储能力。为了获得更稳定的预测,对每个样腔进行了100次采样,并将得到的100个预测取平均值,以获得最终预测。
3.6 MaSIF位点-蛋白质相互作用位点预测
数据集
PPI对取自PRISM非冗余蛋白列表,ZDock基准,PDBBind和SabDab。使用CD-HIT进行序列分离,并使用TM-align进行结构分离。
蛋白质表面中界面点的定义
将蛋白质表面中界面定义为在复合物形成中溶剂分子无法进入的表面区域。通过计算复合物和未结合的伙伴的表面来完成的。然后将各个配偶中在结合复合物中没有对应表面的表面区域定义为接触点。在复合物形成过程中无法到达溶剂的表面区域被定义为界面点。
神经网络架构、代价函数和训练优化
具有三个卷积层的神经网络用于此应用程序。网络将输入的完整蛋白质分解为半径9Å的重叠表面小块作为输入。选择较小的小块半径是因为减少了内存需求,从而允许更多的卷积层。将小块映射到具有三个径向单元和四个角单元的学习网格上。网络的输出是每个小块中心点在0到1之间的接触得分。在训练过程中,批次大小由单个蛋白质组成,并且使用Adam优化器对S型交叉熵损失函数进行了网络优化。由于非界面点的数量通常比界面点的数量大得多,因此选择了一个非界面点的随机子集来训练相等数量的正样本和负样本。只要验证集的ROC AUC比以前的模型有所改善,就会保存最佳模型。
3.7 MaSIF-search:基于表面指纹的PPI预测
数据集
从PRISM数据库获取了共结晶显示参与PPI的蛋白质对数据集。另外,与进行界面位点预测一样,获取了3536个非专性(瞬态)PPI,形成了6001个PPI集合。从天然复合物中提取PPI结构界面,并计算所有界面的成对TM-align得分矩阵。然后,使用scikit-learn的层次聚类根据TM-align分数对结构进行层次聚类。总共将数据集分为4944个训练PPI对和957个测试PPI。
相互作用和非相互作用小块的选择
对于每个PPI,都应进一步考虑属于不同蛋白质且之间在1.0Å之内的所有表面小块中心。计算该对的径向形状互补性得分如下:(1)计算小块中每个点与相邻小块的形状互补性;(2)将中心12Å之内的点分成10个同心径向仓,增量为1.2Å;仓的形状互补性计算为仓中点的第25个百分位;(3)小块的径向形状互补性S计算为所有仓中的中位数。通过将一个真正相互作用的小块与该集中任何其他蛋白质中随机选择的一个配对,来选择非相互作用对。
神经网络架构、代价函数和训练优化
MaSIFsearch神经网络接收一个小块的特征作为输入,然后输出矢量化描述符。在训练和测试期间,将绑定、靶标和随机小块输入到网络中,从而使绑定和靶标是已知的交互对,并假定靶标和随机小块不互动。除了亲水指数以外,靶标的特征都被反转(乘以-1)。总共选择了85652个真实相互作用对和85652个非相互作用对进行训练/验证,同时选择了12678个真实相互作用对和12678个非相互作用对进行测试。每个小块都输入到网络中,并映射到具有16个角度和五个径向分箱的学习软网格中。每种特征类型都通过单独的神经网络通道运行,在该通道中,学习型软网格层之后是具有80个过滤的卷积层,具有16个旋转角的最大池化层和一个整流线性单元。然后,一个完全连接层将每个通道的输出合并,并输出一个80维指纹。使用Adam优化器进行训练过程中的优化包括最小化d-素数代价函数:
其中μt和μf分别是真实和非相互作用对的中值距离,而σt和σf是真实和错误相互作用对的标准差。用八种结合,八种靶标和八种随机小块组成的批次对神经网络进行训练。在每批中,随机选择真正的相互作用对和随机小块。
结构对齐和重打分
第二阶段的对齐和评分方法基于所识别的指纹生成复合物。指纹描述符到靶标小块的距离最短的顶部诱饵小块被选为潜在结合伴侣的候选。然后使用Open3D中实现的RANSAC算法对比每个结合小块。简而言之,RANSAC从结合小块中选择三个随机点,然后使用计算出的描述符按描述符距离在靶标小块中找到最接近的点。使用这三个新发现的对应关系,RANSAC尝试将源小块与靶标小块对齐。RANSAC迭代2,000次,并选择结合物和靶标之间的最大点数在1Å之内的转换。在RANSAC之后,Open3D中实现了另一种算法,即迭代最近点算法,优化了对齐方式。RANSAC完成后,将使用单独的神经网络对转换进行重新打分。为了优化速度,将提取的小块减小至9Å。
用于对对齐的小块进行评分的神经网络
为了区分真实的比对,研究者训练了一个单独的神经网络,以在比对步骤完成后对结合小块进行评分。一旦进行了小块对齐,就搜索3D空间中结合距靶标中每个点最近的邻居,以建立对应关系。然后,神经网络的输入是3D欧式距离,MaSIF搜索指纹距离以及对应关系之间的法线乘积。输出是比对的预测分数。为了训练该神经网络,研究者在MaSIF搜索训练集中生成了数千个正确和错误的比对。对于每个靶标结构,使用一个真实比对和200个错误比对。iRMSD定义为与靶标的任何Cα原子相距小于10Å的Cα原子的RMSD。对于对齐小块中的每个点,在靶标小块上找到了最近的邻居。对于每对点测量了MaSIFsearch指纹描述符的距离;3D空间中的欧几里得距离及其法线之间的点积。研究者网络的输入特征是:1 /(描述符距离)、1 /(欧几里德距离)和法线的点积。每个对齐的小块限制为200个点,如果对齐小块的大小大于200个点,则将其随机采样;如果小于200个点,则将其补零。因此,网络的输入是大小为200,3的矩阵。使用Adam优化器的学习率为1×10-4。从训练集中,将10%的比对用作验证集,对网络进行了50个时期的训练,批处理大小为32。基于最小的验证损失选择了最佳模型。
PPI搜索对接基准
从测试集中选择了N = 100个共晶结构复合物。选择两种蛋白之一作为靶蛋白;对于每种靶蛋白,选择与共晶体结构中与结合蛋白小块具有最高径向互补性的小块作为靶位点。基准测试包括在100个排名最高的结果的简短列表中恢复结合的构象。第二个基准测试是在载脂蛋白状态下与结合的复合物对齐的N = 40个复合物进行的。载脂蛋白的基准以与共晶结构相同的方式进行,但放宽了成功标准,以恢复前1000个结果中的结合构象。对于所有基准测试方法,在进行任何比对之前,将结合随机旋转。
与GIF描述符的比较
根据Yin 等的描述,尽最大努力实现几何不变指纹(GIF)描述符。为了测试描述符,在计算GIF描述符之前将靶标的特征反转。在PPI搜索基准中,GIF与第二阶段对齐和评分方法结合在一起。
与PatchDock的比较
PatchDock使用默认设置,将最接近靶标位点的残基指定为活性位点残基。在所有比对之后,将针对所有N种蛋白质的PatchDock转换合并,并根据PatchDock的默认几何分数进行评分。
PDL1基准
3.8软件工具
MaSIF依赖于外部软件或库来处理蛋白质数据文件和表面文件,计算化学、几何特征和坐标以及执行神经网络计算。以下是所需的库和程序的列表,以及对其进行测试的版本。
Python (2.7)
reduce (3.23):蛋白质添加质子
MSMS (2.6.1):计算蛋白质表面
BioPython (1.66):解析PDB文件
PyMesh (0.1.14):处理层曲面、属性和规范化网格
pyflann (1.6.14):执行顶点的最近邻居搜索
PDB2PQR (2.1.1):计算静电电荷所必需
open3D (0.5.0.0):主要用于RANSAC对齐
matlab (R2018a):用于计算一些几何特征和角度/径向坐标
Python bindings for matlab:Python内部调用matlab函数
Tensorflow (1.9):用于建模、训练和评估神经网络
SBI:用于解析PDB文件并为MaSIF-配体生成生物装配
Dask (2.2.0):多个线程上运行函数调用
Pymol:可视化
4
结果
4.1基于分子表面指纹对配体结合袋进行分类
蛋白质和代谢物之间的相互作用在细胞稳态中起着基本作用,但是对这些相互作用的了解却极为有限。研究者建议以蛋白质表面的相互作用指纹为信息,破译蛋白质口袋的代谢物结合偏好。为了检验该假设,开发了MaSIF-ligand,该分类器可根据表面特征预测口袋的代谢物结合偏好(图2a)。
研究者在大量辅助因子结合蛋白上训练了MaSIF-ligand,其中将序列聚类以从训练和测试集中消除冗余。独立测试的平衡精度用于衡量MaSIF-ligand的分类能力。在这种情况下,如果使用7个辅助因子,则随机分类器的预期平衡精度为0.14。首先训练了具有所有特征(几何和化学)的MaSIF-ligand,获得了0.78的准确度和0.73的平衡准确度。为了研究特征的重要性,将特征集限制为几何或化学特征,这将平衡精度分别降低到0.55和0.65(图2c)。
图2
接下来,将MaSIF-ligand与其他三个程序(ProBiS,KRIPO和SiteEngine)进行了比较,它们利用结构特征进行口袋分类,并在最近的综合基准测试中显示了好的性能。
为了详细分析MaSIF-ligand的预测,研究者生成了具有所有特征的混淆矩阵。观察到跨配体的可变性能,考虑到与其他辅因子的化学差异,更具挑战性的是相似配体之间的区别,即在分析两个高度相似的辅助因子(SAM与ADP和NADP与NAD)之间的混淆数据。在两种情况下,几何特征都不足够,主要是有助于正确预测的化学特征。MaSIF-ligand将特征与非常相似的辅因子区分开的能力非常显著。
尽管在测试和训练集中缺少口袋的全局序列同源性和结构相似性,但是MaSIF-ligand可以破译表面相互作用指纹图谱以确定每个口袋的结合偏好,而无需明确考虑潜在的氨基酸或基于序列的特征。
总体而言,蛋白质表面的相互作用指纹可能是生物学家可以用来推断重要的蛋白质-配体相互作用的其他信息来源。
4.2基于相互作用指纹预测蛋白质结合位点
受先前关于PPI预测的工作启发,研究者开发了MaSIF-site,该分类器接收蛋白质表面作为输入,并输出每个表面顶点参与PPI可能性的预测得分(图3a)。
图3
MaSIF-site在蛋白质结构的大型数据集上进行了训练和测试,这些蛋白质结构在整体状态下的共结晶分离为单体亚基。训练和测试集根据序列和结构进行划分。该任务极大地利用了深度学习方法的潜力,因为多层可以产生更好的预测(图3b)。使用测地卷积层MaSIF-site的ROC AUC达到0.77,而三层将ROC AUC提升到0.86。
可以根据生物物理和结构/化学性质对参与PPI的表面进行分类,MaSIF-site是否对特定类型的表面具有偏向的性能(图3e)。
尽管进化信息对预测蛋白质相互作用位点至关重要,但在某些情况下,这种进化史很少或完全没有。这些极端情况包括计算设计的PPI,其界面在蛋白质骨架中得到了合理设计。研究人员使用MaSIF-site来预测已通过实验验证的三个设计界面:流感抑制剂、同型寡聚笼蛋白和用作免疫原的表位骨架。设计基于没有结合活性的野生型蛋白,每种情况下将其界面得分与非相互作用野生型的界面得分进行了比较。
图4
对MaSIF站点进行了一系列PPI的从头计算设计的蛋白质的测试,其中可以将设计结合物的预测与相应的天然蛋白质进行比较。
4.3 基于相互作用指纹的超快速扫描预测蛋白-蛋白复合物
研究者展示了将指纹嵌入为向量化描述符以预测蛋白质之间的特定相互作用。这种嵌入是受GIF描述符早期工作的启发,因为一旦对描述符进行了预先计算,最近邻技术便可以每秒扫描数十亿个描述符。引入了MaSIF-search一种基于表面指纹快速搜索蛋白质结合伴侣的方法。然后,MaSIF-search通过表面对齐和重新排序阶进行补充,以生成质量提高的对接复合物。
MaSIF-search学会识别两个表面小块相互作用的图案。假设蛋白质通过具有互补几何和化学特征(互补指纹)的表面小块相互作用。为了验证假设,将一个蛋白质伴侣的数值特征反转(乘以-1)。最终目标是MaSIF-search将为成对的交互小块生成相似的描述符,为非交互的小块生成不同的描述符(图5a)。因此,识别潜在的结合伴侣简化为数值向量的比较。
图5
将具有标签、结合、靶标和随机小块的三组蛋白质表面小块送入MaSIF-search网络。神经网络训练的同时,尽量减少指纹描述符之间的欧几里得距离,同时最大限度地提高靶标和随机对象之间的不同之处。
测试集上的性能表明,用于交互表面小块的描述符欧几里德距离远低于非交互小块的欧几里得距离。MaSIF-search在形状互补性PPI上具有优异的性能,因为对具有较低形状互补性的相互作用小块进行训练/测试会导致较低的性能。
接下来,使用MaSIF-search通过表面指纹搜索,然后进行表面小块的结构比对,来预测已知蛋白-蛋白复合物的结构。简而言之,MaSIF-search工作流程包括两个阶段:I)扫描大型的潜在结合物描述符数据库,并通过描述符相似度选择前K个PPI;II)利用周围点的指纹描述符对复合物进行排列,然后根据指纹描述符对预测值进行重新排序。
总之,MaSIF-search能够解密驱动蛋白质与蛋白质相互作用的模式,并在适合进行快速搜索的空间中对它们进行编码。因此,MaSIF-search提供了一种在庞大的蛋白质数据库中搜索特定相互作用指纹的替代方法。
5
讨论
分子表面表征描述了与其他生物分子接触的蛋白质的特征,同时抽象了潜在的蛋白质序列。这种抽象使MaSIF可以学习独立于蛋白质进化史的模式。学习表面指纹的一般方法可能使人们对蛋白质功能有更完整的了解。研究者预见,MaSIF对于从头蛋白质设计应用将尤其重要,在该应用中,尽管取得了显着进步,但新的生物分子相互作用的设计仍是一个根本未解决的问题。将来诸如Osprey和Rosetta之类的蛋白质设计程序可能会识别指纹,从而优化从头设计的蛋白质序列,以显示执行功能任务所需的分子表面图案。
这里展示的概念验证应用程序旨在展示MaSIF的通用性和从表面特征中学习的概念。尽管这些方法处于早期开发阶段,但它们对于理解结构与功能关系还是有用的。此类应用可能需要表征大规模的配体-蛋白质相互作用网络,识别“表面热点”,而这些表面热点可能更容易针对设计用于治疗目的的新生物制剂。MaSIF-search可以与鉴定蛋白质结合伴侣的实验方法结合使用,也可以用于寻找潜在的参与伴侣以用作蛋白质设计的起点。而且,所有这些方法都可以受益于序列进化数据来提高其预测能力。
研究着共同提出了一个概念框架,利用蛋白质分子表面的表征,结合强大的数据驱动学习技术,来解密相互作用指纹。数据和代码的可用性将使研究人员可以将框架应用于新问题。目前的应用显示出技术优势,且具有巨大的潜力,可以进一步开发,并且对蛋白质结构和功能的基础研究以及新蛋白质和基于蛋白质的疗法的设计产生重大影响。
参考资料
Gainza P, Sverrisson F, Monti F, et al. Deciphering interaction fingerprints from protein molecular surfaces using geometric deep learning[J]. Nature Methods, 2019: 1-9.
代码
https://github.com/lpdi-epfl/masif