编译 | 夏忻焱 审稿| 沈祥振
今天分享的是来自Bo wang、Gary D. Bader和Charles Boone实验室联合发表在《Nature Methods》上的论文《BIONIC:使用卷积的生物网络集成》。虽然很多数据构建的生物网络可用来映射细胞功能,但每种数据类型都有局限性。通过结合和自动加权输入信息来获得更准确和全面的基础生物特征,网络集合有望解决这些限制。作者提出了一种基于深度学习的网络集成算法,其中包含了一个图卷积网络框架。与现有的方法相比,此方法,即BIONIC,学习的特征包含更多的功能信息。BIONIC有无监督和半监督的学习模式,利用了可用的基因功能注释。BIONIC在输入网络的规模和数量上都是可扩展的,可以集成人类基因组多种规模的网络。为了证明BIONIC在识别新生物方面的有效性,作者从酵母的非必需基因谱中预测并通过实验验证了基础基因化学-遗传相互作用。
1
介绍
高通量功能基因组学项目产生了数以千计的基因的大量生物数据,通常表现为基因-基因交互网络,这些网络将具有相关功能的基因或蛋白质联系起来。这些功能相互作用网络具有不同的假阳性和阴性率,整合这些网络有望产生更准确和完整的功能网络。然而,实验方法的多样性使得统一这些信息成为一项重大挑战。
现有的网络整合方法还没有解决这个问题。例如,许多集成算法产生的网络只保留原始网络的全局拓扑特征,这可能会牺牲重要的局部关系,而另一些则不能有效地集成有部分不相交的节点集的网络。有些方法在其输出中加入了过多的噪音,例如用过长的维度来表示其输出,这会影响基因功能和功能间作用预测的质量。大多数数据集成方法不能扩展网络数量或者适应真实世界设置所需的规模。有监督的方法是最常见的网络集成方法,它们虽然非常成功,但需要标记的训练数据来优化其对已知基因功能的预测,而这些数据可能无法获得。此外,注释有误差而且数量有限,只能与已知的功能描述一起来加强对基因关系的现有理解,而不能识别新的关系。
为了解决有监督方法的潜在误差,最近探索了无监督的生物网络集成方法。新的无监督数据表示方法重点在于通过网络学习紧凑的特征。然而,这种方法产生的通用节点特征对于感兴趣的任务来说不一定是最佳的。深度学习的进展已经解决了这个问题,开发了图卷积网络 (GCN),这是一类通用的神经网络架构,能够在网络上以一种可扩展的方式学习特征。与通用的节点特征学习方法相比,GCN在一系列通用网络任务中的性能得到了大幅提升。
在这里,作者提出了一个通用的、可扩展的网络整合深度学习框架,称为BIONIC。它使用GCN为每个基因学习一个单一的、统一的特征向量,给定许多不同的输入网络。BIONIC解决了现有集成方法的上述局限性,并产生了准确反映基础网络拓扑结构和捕捉功能信息的集成结果。分析表明,BIONIC特征在捕捉功能信息以及在网络数量和网络规模方面的扩展方面表现良好,同时保持基因特征的质量。最后,作者将BIONIC网络集成应用于化学-遗传相互作用的分析。这使能够对以前未定性的生物活性化合物的细胞靶点做出预测。
2
结果
21 BIONIC 架构
BIONIC使用GCN神经网络架构来单独学习最佳的基因相互作用网络特征,并将这些特征结合到每个基因的单一的、统一的表示中(图1)。首先,输入的数据,如果还不是网络格式的,就被转换成网络(图1a)。然后,每个输入网络都要经过一连串的GCN层(图1b),以产生网络特定的基因特征。所用的GCN层的数量决定了用于更新基因特征的邻域( 即与一个给定基因直接相连的基因)的大小。其中,一层只使用基因的近邻,二层则使用二阶邻域,依此类推。剩余连接从序列中每个网络特定的GCN层的输出加到序列中最后的GCN的输出。这使得BIONIC能够根据多种大小的邻域的来学习基因特征,而不仅仅是最终的邻域,同时通过防止梯度消失来优化训练。然后,通过随机的基因丢弃程序对网络的具体特征进行汇总,产生统一的基因特征可用于下游任务,如功能模块检测或基因功能预测。为了优化编码在其集成特征中的功能信息,BIONIC必须有相关的训练目标,以便于在多个网络中捕捉突出的特征。在这里,BIONIC使用一个无监督的训练目标,如果一些基因有功能标签,BIONIC也可以通过一个半监督的目标来使用这些标签,用于更新其学习到的特征。
对于无监督的目标,BIONIC采用了自动编码器的设计,并通过将集成基因特征映射到网络表征(解码)来重建每个输入网络,并使该重建与原始输入网络的差异最小化。通过优化网络重建的保真度,BIONIC迫使学到的基因特征尽可能多地编码输入网络中存在的突出拓扑信息,从而减少编码的虚假信息量。事实上,对于三酵母网络集合来说,与原始网络格式相比,将这些网络单独输入BIONIC往往会产生在几个榜单上表现更好的特征。这可能是由于BIONIC在训练过程中逐渐将相关基因嵌入到一起,而确保不相关的基因保持较远的距离。通过重构输入网络,BIONIC还训练BIONIC模型来建模每个网络的潜在因素,从而最好地重构所有输入网络。
对于半监督目标,BIONIC使用集成基因特征预测每个基因的标签,然后通过最小化预测值和一组用户指定的真实功能标签之间的差异来更新其权重。在这里,BIONIC进行了多标签分类,即一个给定的基因可能被分配到一个以上的类别标签。BIONIC忽略了任何缺乏真实标签的基因的分类错误,因此能够纳入尽可能多(或尽可能少)的可用标签信息。当基因标签可用时,半监督分类目标与无监督网络重建目标一起使用,当没有基因标签可用时,无监督分类目标单独使用。
图1:BIONIC算法概述
2.2 BIONIC特征和输入网络的评估
作者首先使用无监督BIONIC来集成三种不同的酵母网络:一个相关遗传相互作用的综合网络图谱(4,529个基因,33,056个相互作用)。从携带转录因子缺失的酵母菌株的转录本中得到的共表达网络(101个基因,14,826 次相互作用)以及从亲和纯化质谱分析中获得的蛋白质-蛋白质相互作用网络(2,674个基因,7,075个相互作用)。结合起来共有5,232个独特的基因和53,351个独特的相互作用。与输入网络相比,BIONIC的集成特征在三个不同的功能榜单的所有评价标准上都有相当或优越的表现:IntAct protein complexes,Kyoto Encyclopedia of Genes and Genomes (KEGG) pathways 和 GO Biological Processes。共同注释和模块检测榜单包含1,786到4,170个基因,与集成结果重叠。模块检测榜单定义了107到1,809个模块。IntAct、KEGG和GO生物过程基因功能预测基准涵盖了5,671,770和1,211个与整合结果重叠的基因,以及48,53和63个功能类别。作为一个额外的测试, BIONIC产生了高质量的特征,每个基因都准确地预测了的不同的酵母生物过程注释。在这最后一个测试中,有些类别比其他类别做得更好。这些性能模式反映在各个输入网络中,表明这是数据质量的结果,而不是方法的偏差。
图2:BONIC和现有集成方法的对比
2.3 BIONIC和现有的无监督集成方法的评估
作者用无监督BIONIC和几个不同的集成方法比较网络集成结果。在所有评估类型和榜单中,BIONIC的性能与测试的集成方法一样好甚至更好(图2a)。作者还在每个生物过程的基础上评估了BIONIC和其他集成方法(图2b)。作者发现,与deepNF相比,BIONIC生物过程在每个生物过程上通常都优于现有的集成方法。BIONIC在这两种评估中都表现得很好,这表明它可以学习基因特征,从而解决广泛和细节的功能组织。
图3:有监督BIONIC和现有的有监督集成方法对比
2.4 半监督BIONIC的评估
作者还测试了BIONIC在半监督设置下的表现(图3)。在这里,作者比较了没有标记数据(无监督)的BIONIC训练,由完整的、KEGG和GO(半监督的)训练的BIONIC训练,以及使用相同标签的监督集成算法(GeneMANAIA)。作者发现,添加标记数据可以大大改善BIONIC学习的特征,这些特征也优于有监督的GeneMANIA。
图4:集成方法之间网络数量和规模的性能对比
2.5 BIONIC和现有的集成方法的可扩展性
一种有效的集成算法应该能够扩展到多个网络输入以及具有多个节点的网络。为了测试网络输入的可扩展性,作者逐渐随机抽样更大的酵母基因共表达网络集(图4a),并评估这些集合的结果整合的性能。结果表明,BIONIC可以集成多个网络(图4a)和具有多个节点的网络(图4b),其性能优于所有其他针对越来越大的网络进行评估的方法。
图5:BIONIC必需基因化学-遗传相互作用预测
2.6 BIONIC对化学-遗传相互作用的预测
化学-遗传学方法分析了复合治疗后突变对细胞生长的影响,并可用于系统地预测未特征化合物的分子靶点。例如,如果一个条件温度敏感(TS)突变体携带一个损害化合物目标基因活性的突变,它通常对化合物特别敏感。
作者先前生成了一个化学-遗传筛选数据集,包括289个非必需基因的缺失突变体库(诊断库)和1522个化合物。利用这些数据,作者使用BIONIC预测了50个化合物中更广泛的873个必需基因的化学敏感性。在复合选择过程中,作者使用了图2分析中的无监督BIONIC集成蛋白-蛋白相互作用网络、共表达网络和遗传相互作用网络特征,将其称为物理、表达和遗传(PEG)特征。作者选择了化合物,通过识别那些BIONIC预测的化合物进行研究。作者通过将每个化合物中的敏感基因划分为训练集和测试集,并使用BIONIC特征来预测测试集基因(方法)。选择敏感基因预测最成功的前50个化合物进行进一步分析。对50种化合物中的每一种的敏感必需基因预测都以类似于化合物选择程序的方式生成,预测是对酵母必需基因而不是诊断库基因进行的(方法)。
在156个对50个筛选出来的化合物敏感的基本基因中,BIONIC基因成功地预测了35个。在有序的Fisher精确检验中,BIONIC明显地预测了50种化合物中的13种的敏感基因。作者还更广泛地评估了BIONIC是否能够正确地预测一个给定的化合物的敏感基因被注释到的生物过程。在62个跨化合物注释的生物过程中,有27个的BIONIC敏感基因预测被统计上丰富(Fisher精确检验)(图5a)。作者将BIONIC预测的质量与随机基线进行了比较(图5b)。在这里,作者生成了1000个BIONICPEG特征基因标签的随机排列,并计算了50个筛选的化合物的敏感必需基因预测,如前所述。作者发现,BIONIC敏感基因和生物过程的预测明显比随机排列更准确,这表明BIONICPEG特征编码了预测化学-遗传相互作用的相关信息。作者观察到,在13种化合物中有8种被BIONIC正确的预测排在十大最敏感的相互作用中。
为了进一步研究这种化合物-过程的相互作用,作者将BIONICPEG特征分层聚类,并重点关注了图2b“糖基化、蛋白质折叠/靶向、细胞壁生物合成”生物过程中存在的必要基因(图5d)。作者观察到,16个NP329个敏感必需基因中有6个位于生物过程中,20个BIONIC预测的敏感必需基因中有18个位于生物过程中。在这一生物过程中,BIONIC成功预测了6个NP329敏感必需基因中的4个(BIG1、KRE5、KRE9、ROT1)。这些结果表明,BIONIC既能预测该化合物所靶向的相关生物过程,也能预测特定的敏感基因。此外,基于整合的BIONIC特征,BIONIC成功预测的4个敏感基因紧密聚在一起(图5)。
3
论述
BIONIC是一种深度学习算法,它扩展了GCN架构以整合生物网络 。与其他无监督的方法相比,BIONIC产生的基因特征能够很好地捕捉功能信息。BIONIC可以以半监督的方式使用标记的数据,在其他情况下,它可以是纯粹的无监督。与现有的无监督方法相比,BIONIC可以扩展到更多数量和规模输入网络。
BIONIC的一个强大的未来功能将包括基因或蛋白质特征,如氨基酸序列、蛋白质定位、突变形态缺陷或其他非网络特征,除了基因的拓扑作用外,还为基因提供额外的背景。利用基于深度学习的GCN和编码器-解码器技术继续发展集成基因功能预测,将实现能够比以前更丰富、更大规模地绘制基因功能。
参考资料
Forster, D.T., Li, S.C., Yashiroda, Y. et al. BIONIC: biological network integration using convolutions. Nat Methods (2022).
https://doi.org/10.1038/s41592-022-01616-x