今天给大家介绍2020年5月康奈尔大学Fei Wang教授团队发表在Briefings in Bioinformatics的综述“Recent advances in biomedical literature mining”。该综述总结了生物医学文献挖掘研究中存在的问题、方法和最新进展,并讨论了未来的研究方向。
1
研究背景
随着生物医学研究迅速发展,产生了大量的生物医学文献。但研究者很难阅读如此大量的文献,因此,对生物医学文献的自动知识提取和挖掘显得尤为重要。康奈尔大学综述了生物医学文献挖掘(BLM)的最新进展,重点关注了五个关键任务:生物医学命名实体识别(BioNER)与规范化(NEN)、生物医学文本分类、关系抽取(RE)、路径提取和假设生成。在这些任务中,生物医学命名实体识别和规范化以及文本分类是其他任务的基础,它们是关系抽取等其他下游任务的必要步骤。而路径提取和假设生成通常在关系抽取之上进行。该研究调查的生物医学文献挖掘如图1所示。
图1 BLM的最新进展
2
生物医学命名实体识别与规范化
2.1 任务定义
从技术上讲,生物医学命名实体识别(BioNER)的目标是从文本中找到提到生物医学实体的界限。生物医学实体命名规范化(BioNEN)是将获得的生物医学命名实体映射到受控词汇表中。
2.2 生物医学命名实体识别的方法
传统的BioNER方法大致可以分为三类:基于词典的方法、语义方法和统计方法,这三种方法都有一些不可避免的缺点。而因为深度学习技术可以在没有额外特征工程的情况下以端到端的方式进行训练,所以现在许多学术研究者都致力于将其应用于NER。
2.3 生物医学命名实体规范化的方法
目前常见的生物医学命名实体规范化的方法有基于规则的NLP技术来改进生物医学文本中疾病名称的规范化、基于CRF的成对学习排序方法进行疾病名称规范化和利用医学名词的字典查找方法进行疾病名称的规范化。在这些方法中,生物医学命名实体识别和规范化被视为两个独立的过程,生物医学实体命名识别精度直接影响规范化性能。
2.4 联合建模生物医学命名实体识别和规范化的方法
近年来,由于生物医学命名实体识别和规范化之间的相互依赖关系,人们对它们的联合建模进行了研究。学术研究者提出了许多方法,如:将semi-CRF用于联合实体识别和歧义消除,将半马尔可夫模型用于关节疾病实体的识别和规范化,还有学者进一步提出了一种具有显式反馈策略的深层神经多任务学习框架以联合建模生物医学命名实体识别和标准化。
2.5 挑战
目前生物医学NER和NEN仍面临着许多挑战。同一实体的同义词和替换表达,导致了词汇量的爆炸性增长。许多实体涉及长序列,这使得准确检测边界变得更加困难。实体使用缩写或表达方式不标准也是面临的一大挑战。一词多义或歧义也是潜在的问题所在。嵌套实体在医学文本中十分常见,而目前的BioNER研究通常只关注最外层的实体。即使在某些情况下可以将规范化任务视为数据库查找,但通常无法做到精确匹配,主要原因是生物医学术语有很多变体,变体类型可以分为三类:句法变体、同一术语不同形式和语义变体。
3
生物医学文献分类
3.1 任务定义
有两种典型的生物医学文章分类任务,相关主题识别和生物医学文献索引。相关主题识别确定生物医学出版物是否与给定主题相关。生物医学文献索引将一组术语分配给每一篇特定的生物医学文章,以表示文章中提到的概念。
3.2 方法
传统的相关主题识别研究采用经典的机器学习模型,如有监督机器学习模型、排序模型和本体匹配模型来实现这一目标。给生物医学文章分配MeSH术语本质上是一个多标签分类问题,将每个MeSH术语看做一个二进制分类任务。因此,可以使用机器学习分类模型对生物医学文献进行分类。
3.3 深度学习的最新进展
深度神经网络的最新进展已经被建立为用于生物医学文本分类的SOTA模型。传统的有监督机器学习模型需要人工特征工程,而深度学习模型可以直接接受原始文本输入,并以端到端的方式工作。现在,许多网格索引模型都是用深度学习方法提出的。
3.4 挑战
尽管生物医学文本分类是一个经典的课题,但仍然存在一些尚未完全解决的挑战。如:1)标签空间很大;2)标签之间的关系比较复杂;3)标签存在偏差,真实标签在训练数据集上很难精确,可能会影响学习的分类器的质量。
4
生物医学关系抽取
4.1 任务定义
生物医学关系抽取(RE)是指对正文中不同生物医学概念之间提到的关系进行检测和分类。RE的目标是检测实体对之间出现的预先指定类型的关系。与生物医学实体的类型相比,实体关系的类型更加多样。
4.2 不同关系抽取任务的方法
根据具体类型,该研究将生物医学关系提取分为4类:蛋白质-蛋白质相互作用(PPIs)、基因型-表型关系(GPA)、化学-蛋白质相互作用(CPI)和药物-药物相互作用(DDI)。
- PPIs对于理解复杂的疾病机制和设计适当的治疗方法是必不可少的。 现有的PPI提取方法有基于规则的和自动的。 其中,共现就是基于规则的一种方法。
- GPA在精准医学中起着核心作用。 根据提取方法不同,可以分为基于模式的方法和基于学习的方法。
- CPI识别人体内化合物和蛋白质之间的相互作用,是药物发现和开发的一项基本任务。 由于化合物和基因数量众多,因此自动提取的方法就具有很大的吸引力。
- DDI鉴定是上市后药物安全监测或药物安全监视中的一项重要任务。 DDI检测问题可以看作是一个二进制分类问题。 现有的DDI提取方法有基于共现的、基于规则的和机器学习的方法。
关系抽取本质上是一个分类问题,可以用经典的有监督机器学习技术来解决。这些方法将人工特征作为输入,例如表面特征、词汇特征、句法特征或从现有本体派生的特征。同时,还探索了基于依赖树的内核的使用。但构建有用的人工特征是困难和耗时的,所以最近一些研究调查了深层神经网络的使用,该研究详细介绍了如何将CNN和RNN应用于生物医学关系抽取。
4.4 挑战
与一般领域的RE任务相比,BioRE有几个挑战:1)生物医学实体的非标准表达变体;2)一般的RE模型通常从文本中提取二元关系,但医学文献中涉及的关系可以是一元、二元或n元关系,其中多个实体包含在单个关系中;3)由于生物医学关系对领域专业知识的要求,标注良好的生物医学关系的可用性远远低于一般关系,这使得充分训练复杂的深度学习模型具有挑战性;4)生物医学领域不断有新发现出现,开发识别新的看不见的关系的模型也是一个具有挑战性的问题。
5
生物医学路径提取
5.1 任务定义
生物医学路径对于理解癌症等复杂疾病的潜在机制至关重要。大多数路径知识都包含在自由文本(如生物医学文献)中,这需要大量的人力来解析。因此,开发从生物医学文献中自动提取生物医学路径的计算方法是非常必要的。
5.2 方法
许多现有的路径提取研究都是基于规则的系统,但是手工生成的规则提取昂贵、耗时且召回率低。此外还有机器学习的方法可以执行有效的自动规则工程,但它们需要大规模的标注示例才能达到满意的性能。因此许多学术者提出了从现有知识库中进行远程监督的方法、同时利用基于规则和机器学习混合的方法。
5.3 深度学习的潜在应用
目前还没有利用深度学习技术解决路径提取的问题。主要原因是没有公开可用的训练数据,这使得训练有监督的深度学习模型很难实现。但如果有足够的训练数据,那一些基本的深度方法如RNN、CNN等都可以用于生物医学路径提取。
5.4 挑战
计算路径提取系统的一个主要挑战是用户的参与不足,更准确地说,尽管某些系统提供了一种与用户交互的方式,但是由于以下原因,在没有任何用户干预的情况下实现全自动路径提取系统过于理想化:1)生物医学文献中多样且复杂的表达方式,使得很难准确地提取路径;2)提取结果的低准确性阻碍了系统的进一步利用;3)缺少一些必要的上下文信息,例如交互条件;4)不断变化的需求使得系统很难迅速适应;5)科学出版物中的许多单句往往涉及多个生物医学实体。这些问题都使得目前无法实现全自动路径提取。
6
生物医学假说生成
6.1 任务定义
假说的产生,也被称为基于文献的发现(LBD),试图用计算方法从文献中获得新的生物医学发现。假设生成的目标是利用已发表的文章,检测文本中不存在的潜在关系,通过其他显性关系的存在推断出新的生物医学知识。
6.2 方法
大多数LBD系统都是基于或派生自Swanson的ABC共现模型。目前,已经开发了各种工具使用ABC共现模型来生成假设。例如:从MEDLINE摘要标题中的生物医学术语的共现识别现有的关联、利用全面的文本和结构知识来推断因果假设等等。除了基于ABC共现的建模之外,还有其他用于LBD的方法。例如:稀有性原则、基于文献计量学的系统,使用引用信息来查找链接和目标文献、基于生物医学知识图谱的LBD药物发现方法。
6.3 深度学习的潜在应用
大多数关于假设生成的研究都是基于ABC模型的。深度学习模型很少直接用于这项任务,可能是因为LBD过程的高可解释性要求。在有效的深度学习可解释性机制下,深度学习模型应该能够在生成假设上获得更好的数值性能。
6.4 挑战
基于生物医学文献的假设生成仍然面临许多挑战:1)某些方法(如基于ABC共现的方法)的假设过于简单,无法捕捉到生物医学过程的复杂性;2)许多现有的LBD方法和系统都是为了研究目的而开发的,没有应用在真正能提供帮助的实际环境中。例如基础科学研究、制药研究和开发以及临床护理等;3)生物医学文章的内容可能偏向于它们的专业学科,不同文章的发现可能会相互矛盾,很难获取可靠的假设。
参考资料
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbaa057/5838460?guestAccessKey=d911975a-f48d-4de3-adf2-e5ee4b779f0c&from=groupmessage&isappinstalled=0