一
论文题目:
Accelerating bioactive peptide discovery via mutual information-based meta-learning 论文摘要:
机器学习方法已经发展到鉴定各种肽的生物活性。然而由于缺乏实验验证的多肽,机器学习方法无法提供足够的训练模型,容易导致泛化性差。目前还没有通用的计算框架来预测不同肽的生物活性。因此一个自然的问题是,我们是否可以使用有限的样本来建立一个有效的预测模型预测不同种类的肽。为了解决这个问题,文章提出了互信息最大化元学习(MIMML),一种新的基于元学习的生物活性肽发现预测模型。利用不同功能肽的少量样本,MIMML可以充分学习不同功能之间的判别信息,并表征功能差异。实验结果表明,该方法使用的训练样本比现有方法少得多,但具有良好的性能。文章还解释了不同类型功能之间的潜在关系,以了解元模型在改进特定任务中学会了什么。综上所述,本研究是功能肽挖掘领域的一项开拓性工作,为解决生物序列分析中少量样本学习问题提供了第一个解决方案,加速了新的功能肽的发现。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab499/6457168 Github链接:
https://github.com/TearsWaiting/MIMML
二
论文题目:
META-DDIE: predicting drug–drug interaction events with few-shot learning 论文摘要:
药物间相互作用(DDIs)是药物研究中的一个重要问题,许多计算方法已经被开发出来来预测两种药物是否相互作用。近年来DDI引起的事件越来越受到重视,这对于研究联合用药或不良反应背后隐藏的机制更有帮助。然而一些罕见的事件可能只有很少的例子,阻碍了它们的准确预测。为了解决上述问题,文章提出了一种名为META-DDIE的计算方法,它由一个表示模块和一个比较模块组成,用于预测DDI事件。首先从DrugBank收集药物化学结构和DDI,并使用一个标准管道将DDI事件分类为数百种类型。META-DDIE使用药物结构作为输入,通过表示模块学习DDI的可解释表示。然后模型使用比较模块预测两个表示是否相似,最后预测带有少量标记示例的DDI事件。在计算实验中,META-DDIE优于几种基线方法,尤其增强了对罕见事件的预测能力。此外,META-DDIE有助于识别可能引起DDI事件的关键因素,揭示不同事件之间的关系。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab514/6458937 Github链接:
https://github.com/YifanDengWHU/META-DDIE
三
论文题目:
Predicting miRNA-disease associations using an ensemble learning framework with resampling method 论文摘要:
越来越多的证据表明,microRNA (miRNA)在各种复杂疾病的发病和进展中发挥着重要作用。推断与疾病相关的miRNAs对探索人类疾病的病因、诊断和治疗具有重要意义。由于生物实验费时费力,开发有效的计算方法已成为确定miRNA与疾病之间关联的必要手段。文章提出了一个集成学习框架与重采样方法预测MiRNA-Disease Association (ERMDA),以发现潜在的疾病相关miRNA。首先提出了构建多个不同均衡训练子集的重采样策略,以解决数据库中样本不均衡的问题;然后,ERMDA通过整合miRNA- miRNA相似性、疾病-疾病相似性以及实验验证的miRNA与疾病关联信息,提取miRNA和疾病特征表征。然后,利用特征选择的方法来减少冗余信息,增加子集之间的多样性。最后,ERMDA在每个子集上构造一个个体学习者产生原始结果,并引入软投票方法,根据个体学习者的预测结果进行最终决策。一系列的实验结果表明,无论是在平衡测试集还是非平衡测试集上,ERMDA都优于其他先进的测试方法。此外,对三种人类疾病的案例研究进一步证实了ERMDA对潜在疾病相关miRNA的预测能力。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab543/6470964 Github链接:
https://github.com/Wang-Zhaowei/ERMDA
四
论文题目:
An in silico approach to identification, categorization and prediction of nucleic acid binding proteins 论文摘要:
蛋白质与核酸之间的相互作用在转录、翻译和DNA修复等许多过程中起着重要作用。通过探索蛋白质在这些相互作用中的功能,可以了解相关生物事件的机制。近年来,已知蛋白质序列的数量迅速增加,但不幸的是,描述蛋白质结构和功能的数据库增长缓慢。因此,改进此类数据库对于预测蛋白质-核酸相互作用是有意义的。此外,通过了解蛋白质在这些相互作用中的功能,可以进一步了解相关生物事件的机制,例如病毒感染或设计新的药物靶点。收集和识别每个序列的信息,包括其功能和相互作用位点,并构建了一个名为 PNIDB 的数据库。PNIDB 中的蛋白质分为转录、免疫系统和结构蛋白等 27 类,然后使用机器学习方法预测每种蛋白质的功能。使用作者的方法,在标记序列上训练预测器,然后基于训练的分类器预测蛋白质的功能。通过 10 倍交叉验证,预测准确率达到了 77.43%。
论文链接:
https://academic.oup.com/bib/article/22/3/bbaa171/5892348?login=true#248042479 代码链接:
http://server.malab.cn/PNIDB/index.html