一论文题目:
Distant metastasis identification based on optimized graph representation of gene interaction patterns 论文摘要:
转移是癌症发病和死亡的主要原因,大多数癌症死亡是由于癌症转移而不是原发肿瘤引起的。在以往的研究中,基于计算方法的转移预测研究较少。文章提出了一个嵌入图形学习(GL)模块的图卷积网络,名为glmGCN,用于预测癌症的远处转移。使用mRNA和lncRNA的表达来提供比单独使用mRNA更多的遗传信息,并使用它们构建基因相互作用图表示来考虑遗传相互作用的影响。然后在GCN框架下对肿瘤转移进行预测,从构建的不规则图结构中提取信息丰富的高级特征。特别是,GL模块被嵌入到建议的glmGCN中,以学习基因相互作用的最佳图表示。首先构建蛋白质相互作用网络来表示初始基因(节点)关系图。然后,通过GL模块构建了一个新的图形表示,该图形表示最优地学习了基因相互作用强度。最后,采用GCN鉴别远处转移病例。值得一提的是,该方法比以往基于gcn的方法更注重基因-基因关系,因此可以获得更准确的预测性能。glmGCN基于两种类型的癌症进行训练,并使用另外两种癌症类型进一步验证。一系列实验表明了该方法的有效性。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab468/6457167 Github链接:
https://github.com/RanSuLab/Metastasis-glmGCN
二论文题目:
CSM-carbohydrate: protein-carbohydrate binding affinity prediction and docking scoring function 论文摘要:
蛋白质-碳水化合物的相互作用对许多细胞过程至关重要,但在生物学上具有挑战性。为了提高我们对这些分子相互作用的理解和建模能力,文章使用了一组精心设计的370个蛋白质-碳水化合物复合物与实验结构和生物物理数据,以便训练和验证一个新的工具,即截断扫描矩阵(CSM)-碳水化合物,使用机器学习算法准确预测其绑定亲和力和排名对接姿态作为评分函数。蛋白质和碳水化合物的互补,在形状和化学方面的信息,是利用图形为基础的结构签名。在训练集和独立测试集上,文章方法在交叉验证下获得了可比的皮尔逊相关系数0.72,在独立测试下获得了可比的皮尔逊相关系数0.67,为最终模型的可泛化性和鲁棒性提供了信心。在单糖、二糖和低聚糖中获得了类似的性能,进一步强调了这种方法在研究更大的复合物方面的适用性。文章发现CSM-碳水化合物显著优于以前的方法。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab512/6457169
三论文题目:
A novel fast multiple nucleotide sequence alignment method based on FM-index 论文摘要:
多序列比对(MSA)是许多生物学应用的基础。但大多数经典的MSA算法难以处理大规模的多序列,特别是长序列。因此,最近的一些调整器采用了一种有效的分治策略,将长序列分解为几个短子序列。选择公共片段(即锚点)进行序列分割是非常关键的,因为它直接影响精度和时间成本。因此文章提出了一种新的算法FMAlign,以提高多核苷酸序列比对的性能。首先使用FM-index以较低的成本提取较长的公共段,而不是使用占用空间的哈希表。在找到较长的最优公共段后,再将序列除以较长的公共段。FMAlign已经在病毒和细菌基因组以及人类线粒体基因组数据集上进行了测试,并与MAFFT、HAlign和FAME等现有MSA方法进行了比较。实验表明,该方法在运行时间上优于现有方法,对长序列集具有较高的准确率。结果表明,该方法在序列长度和序列数方面均适用于大规模的核苷酸序列。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab519/6458932 Github链接:
https://github.com/iliuh/FMAlign
四论文题目:
Accelerating bioactive peptide discovery via mutual information-based meta-learning 论文摘要:
机器学习方法已经发展到鉴定各种肽的生物活性。然而由于缺乏实验验证的多肽,机器学习方法无法提供足够的训练模型,容易导致泛化性差。目前还没有通用的计算框架来预测不同肽的生物活性。因此一个自然的问题是,我们是否可以使用有限的样本来建立一个有效的预测模型预测不同种类的肽。为了解决这个问题,文章提出了互信息最大化元学习(MIMML),一种新的基于元学习的生物活性肽发现预测模型。利用不同功能肽的少量样本,MIMML可以充分学习不同功能之间的判别信息,并表征功能差异。实验结果表明,该方法使用的训练样本比现有方法少得多,但具有良好的性能。文章还解释了不同类型功能之间的潜在关系,以了解元模型在改进特定任务中学会了什么。综上所述,本研究是功能肽挖掘领域的一项开拓性工作,为解决生物序列分析中少量样本学习问题提供了第一个解决方案,加速了新的功能肽的发现。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab499/6457168 Github链接:
https://github.com/TearsWaiting/MIMML