一
论文题目:
TransformerGO: Predicting protein-protein interactions by modelling the attention between sets of gene ontology terms 论文摘要:
蛋白质-蛋白质相互作用 (PPI) 在多种生物过程中发挥关键作用,但只有一小部分相互作用已通过实验确定。此外,已知检测 PPI 的高通量实验技术会受到各种限制,例如夸大的假阳性和阴性率。源自基因本体(GO)注释的语义相似性被认为是蛋白质相互作用最有力的指标之一。然而,尽管近年来预测 PPI 的计算方法已经流行起来,但大多数方法都未能捕捉到 GO 术语的特异性。作者提出了 TransformerGO,一个能够使用注意力机制动态捕获基因本体集之间语义相似性的模型。作者使用一种算法框架为 GO 术语生成密集图嵌入,该算法框架用于学习node2vec 的网络中节点的连续表示。TransformerGO 学习带注释的术语之间的深层语义关系,并且可以高精度地区分消极和积极的交互。TransformerGO 在黄金标准 PPI 数据集上的经典语义相似性测量以及在酿酒酵母和智人的大型数据集上优于基于机器学习的最先进方法。
论文链接:
https://doi.org/10.1093/bioinformatics/btac104 Github链接:
https://github.com/Ieremie/TransformerGO
二
论文题目:
Back Translation for Molecule Generation 论文摘要:
分子生成,即产生新的分子,是生物信息学中的一个重要问题。典型的任务包括生成具有给定特性的分子、分子特性改进(即改进输入分子的特定特性)、逆合成(即预测可用于合成目标分子的分子)等。最近,基于深度学习的分子生成方法受到更多关注。生物信息学的标记数据通常很难获得,且有着数以百万计的未标记分子。受未标记数据自然语言处理中序列生成的成功启发,作者想探索一种使用未标记分子进行分子生成的有效方法。 作者提出了一种新方法,即分子生成的反向翻译,这是一种简单而有效的半监督方法。让 X 是源域,它是属性的集合,要优化的分子等。让 Y 是目标域,它是分子的集合。特别是,给定一个主要任务是要学习从源域 X 到目标域 Y 的映射,首先训练一个反向模型 g 用于 Y 到 X 的映射。之后,使用 g 将 Y 中未标记的数据反向转换为 X 并获得更多合成数据。最后,将合成数据与标记数据相结合,并为主要任务训练一个模型。
论文链接:
https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btab817/6454941 Github链接:
https://github.com/fyabc/BT4MolGen
三
论文题目:
Advanced Graph and Sequence Neural Networks for Molecular Property Prediction and Drug Discovery 论文摘要:
分子的特性决定了它们的功能,可应用于很多领域。随着深度学习方法的进步,用于预测分子特性的计算方法正在获得越来越多的动力。然而,目前缺乏针对此任务的先进方法和综合工具。作者开发了一套全面的机器学习方法和工具,涵盖不同的计算模型、分子表示和损失函数,用于分子特性预测和药物发现。具体来说,作者将分子表示为图和序列。基于这些表示,作者开发了新的深度模型,该模型从分子图和序列中学习。为了有效地从高度不平衡的数据集中学习,作者开发了先进的损失函数来优化精确召回曲线。总而言之,本文的工作不仅是一个综合工具,而且有助于开发新颖和先进的图和序列学习方法。在线和离线抗生素发现和分子特性预测任务的结果表明,作者的方法比以前的方法取得了一定的改进。特别是,该方法在与 COVID-19 相关的药物发现的 AI 治愈公开挑战赛中的 ROC-AUC 和 PRC-AUC 均获得第一名。
论文链接:
https://doi.org/10.1093/bioinformatics/btac112 Github链接:
https://github.com/divelab/MoleculeX
四
论文题目:
AMC: accurate mutation clustering from single-cell DNA sequencing data 论文摘要:
单细胞 DNA 测序 (scDNA-seq) 现在可以实现肿瘤内异质性的高分辨率图谱。从 scDNA-seq 数据进行系统发育推断的现有方法在小数据集上表现良好,但在大数据集上计算效率低、准确性下降。受单个细胞上共享共同状态的突变可以组合在一起这一事实的启发,作者引入了一种称为 AMC 的新方法来准确地对突变进行聚类,从而提高系统发育推断的效率。AMC 首先使用主成分分析,然后使用 K 均值聚类来查找突变簇,然后推断每个簇的基因型的最大似然估计。推断的基因型随后可用于高效地重建系统发育树。对各种模拟数据集的综合评估表明,AMC 对于有效推理大型 scDNA-seq 数据集上的突变簇特别有用。
论文链接:
https://doi.org/10.1093/bioinformatics/btab857 Github链接:
https://github.com/qasimyu/amc