【Bioinformatics】四篇好文简读-专题5

2021-10-20 15:03:00 浏览数 (1)

论文题目:

Highly accurate classification of chest radiographic reports using a deep learning natural language model pre-trained on 3.8 million text reports 论文摘要:

深度双向transformer的开发(例如来自transformer的双向编码器表示(BERT))使一些自然语言处理(NLP)基准测试具有出色表现。特别是在放射学领域,日常临床工作流程中会生成大量的自由文本数据。这些报告文本可用于机器学习中的标签生成,特别是用于图像分类。然而,由于报表文本大多是非结构化的,因此需要高级NLP方法来实现精确的文本分类。为了达到这一目的,必须首先对大量的神经网络进行人工标记。相比之下,BERT 模型可以在未标记的数据上进行预训练,然后只需要对少量手动标记的数据进行微调即可获得更好的结果。通过使用BERT确定重症监护胸部X光片报告中最重要的发现,作者获得了受试者操作特征曲线下的面积,充血为0.98,积液为0.97,实变为0.97,气胸为0.99,超过了先前方法的准确性,而注释工作相对较少。因此,该方法有助于改进从自由文本医疗报告中提取的信息。

论文链接:

https://doi.org/10.1093/bioinformatics/btaa668 Github链接:

https://github.com/fast-raidiology/bert-for-radiology

论文题目:

Clustering single-cell RNA-seq data by rank constrained similarity learning 论文摘要:

单细胞RNA测序(scRNA-seq)技术的最新突破为识别复杂组织中的异质细胞类型提供了机会。然而,scRNA-seq数据中不可避免的生物噪声使得该问题极具挑战性。因此,尽管开发了许多工具,但其准确性仍有待提高。作者开发了一种新的聚类算法工具RCSL(秩约束相似性学习),以使用复杂组织中的scRNA序列数据准确识别各种细胞类型。RCSL同时考虑了细胞之间的局部相似性和全局相似性,以区分同一类型细胞之间的细微差异以及不同类型细胞之间的较大差异。实验表明,RCSL在准确性和鲁棒性方面大大优于六种目前最先进的方法。

论文链接:

https://academic.oup.com/bioinformatics/article/37/19/3235/6271408 代码链接:

https://cran.r-project.org/web/packages/RCSL/index.html

论文题目:

Improved estimation of model quality using predicted inter-residue distance 论文摘要:

蛋白质模型质量评估(QA)是蛋白质结构预测的一个重要组成部分,其目的是在不知道蛋白质结构的情况下,评估结构模型的质量或从结构模型库中选择最精确的模型。QA在蛋白质结构预测中仍然是一项具有挑战性的任务。基于最近使用深度学习的结构预测算法trRosetta预测的剩余距离,作者开发了QDistance,一种新的全局和局部质量估计方法。QDistance适用于单模式和多模式输入。作者设计了几个基于距离的特征来评估预测的和模型推导的剩余距离之间的一致性。再加上一些广泛使用的特性,它们被输入到一个简单但功能强大的线性回归模型中,以推断全局QA分数。根据与一组选定参考模型的比较分析,预测每个结构模型的局部QA分数。对于多模型输入,根据预测的全局QA分数从输入中选择参考模型。对于单模型输入,参考模型由trRosetta预测。利用基于信息距离的特征,QDistance可以以令人满意的精度预测全局质量。对CASP13和CAMEO结构模型的基准测试表明,QDistance与其他方法相比具有竞争力。CASP14实验中的盲法测试表明,QDistance是稳健的,并位列顶级的预测器之列。QDistance是前三位的局部QA方法,对不可靠的局部区域进行了最准确的局部QA预测。分析表明,这种优越的性能可归因于包含了预测的残基间距离。

论文链接:

https://doi.org/10.1093/bioinformatics/btab632 Github链接:

http://yanglab.nankai.edu.cn/QDistance

论文题目:

BioVAE: a pre-trained latent variable language model for biomedical text mining 论文摘要:

大规模预训练语言模型(PLM)在各种生物医学文本挖掘任务中具有良好性能。这种PLM的能力可以与深层生成模型的优势相结合。然而,这些模型只接受一般领域文本的训练,生物医学模型仍然缺失。在这项工作中,作者介绍了BioVAE,这是生物医学领域第一个大规模预训练潜在变量语言模型,它使用OPTIMUS框架在大量生物医学文本上进行训练。该模型显示,与现有公开的生物医学PLM相比,在几个生物医学文本挖掘任务上有state-of-the-art的表现。此外,该模型可以生成比原始OPTIMUS输出更精确的生物医学句子。 论文链接:

https://doi.org/10.1093/bioinformatics/btab702 Github链接:

https://github.com/aistairc/BioVAE


欢迎关注公众号,获取更多论文解读

转载或合作请联系邮箱 intbioinfo@163.com

0 人点赞