Nature Medicine | 深度学习在健康医疗中的应用

2022-03-31 16:00:47 浏览数 (1)

国际顶级医学杂志《自然医学》2019年1月发表的一篇综述文章"A guide to deep learning in healthcare"。

本文介绍健康医疗的深度学习技术,重点讨论了计算机视觉、自然语言处理、强化学习和广义方法的深度学习。我们描述这些计算技术如何影响医学的几个关键领域,并探索如何构建端到端系统。计算机视觉的讨论主要集中在医学成像上,自然语言处理则主要关注其在电子健康记录数据等领域的应用。同样,在机器人辅助手术的背景下讨论了强化学习,并综述了基因组学的广义深度学习方法。

深度学习作为机器学习(ML)的一个分支,在过去的6年里出现了巨大的复苏,主要是由于计算能力的提高和大量新数据集的可用性。这一领域见证了机器理解和操作数据(包括图像、语言和语音)能力的显著进步。医疗设备和数字记录系统也在不断增长, 产生的数据量巨大(仅美国就有150EB或10^18 字节,每年增长48%),因此健康医疗和医学将从深度学习中受益匪浅。

与其他类型的计算机编程不同,机器学习使用统计的、数据驱动的规则将算法的输入转换为输出。这些规则是从大量样本中自动导出的,而不是由人类显式指定的。历史上,构建一个ML系统需要领域专家和人类工程来设计特征抽取器,将原始数据转换为合适的表示,以便学习算法从中检测模式。相反,深度学习是一种表示学习的方法,将原始数据输入给机器,它能自动找出出模式识别所需的表示:由多层表示复合的表示。这些层通常按顺序排列,由大量原始的非线性操作组成。一个层的表示(从原始数据输入开始)被输入到下一个层,并转换为更抽象的表示。当数据流过系统的各个层时,输入空间会反复扭曲,直到数据点变得可识别为止(见图1a)。通过这种方式,可以学习高度复杂的函数。

图1a 一个简单的多层深层神经网络。对于两类数据,用不同的颜色表示,当数据从一层流向另一层时,通过迭代失真使它们线性可分。最后的输出层通过输出其中一个类的概率来充当分类器。这个例子说明了大型网络使用的基本概念。经http://colah.github.io/许可改编的概念图。

深度学习模型可以扩展到大型数据集,部分原因是它们能够在专门的计算硬件上运行,随着更多数据不断改进,使它们能够优于许多经典的ML方法。深度学习系统可以接受多种数据类型作为输入,这是与异构医疗数据特别相关的一个方面(图1b)。最常见的模型使用有监督学习进行训练,其中数据集由输入数据点(如皮肤损伤图像)和相应的输出数据标签(如“良性”或“恶性”)组成。强化学习(RL)是计算智能体通过反复试验或专家示范进行学习的一种学习方法,随着深度学习的采用而不断发展,在游戏(如Go)等领域取得了显著的成绩。RL在需要医生示范的健康医疗应用中非常有用,例如在机器人辅助手术时学习缝合伤口。

图1b 接受各种数据类型(图像、时间序列等)作为输入的大规模网络的例子。对于每种数据类型,在其低层中学习有用的特性,然后合并来自不同类型数据,并通过更高级别的数据流,使DNN能够跨数据类型执行推理,这一能力在健康医疗中越来越重要。

计算机视觉

深度学习的一些最大成功是在计算机视觉领域。CV 侧重于图像和视频理解,处理目标分类、检测和分割等任务,这些任务有助于确定患者的X光片是否包含恶性肿瘤。卷积神经网络(CNN)是一种深度学习算法,用于处理具有自然空间不变性的数据(如图像,具有平移不变性),已成为该领域的核心。

例如,医学成像可以从图像分类和目标检测的最新进展中受益匪浅。许多研究表明,在皮肤病学、放射学、眼科学和病理学的复杂诊断方面取得了很好的效果(图2)。深度学习系统可以帮助医生提供参考意见和标记图像中的相关区域。

图像级诊断在使用基于 CNN 的方法方面非常成功(图2)。这在很大程度上是由于 CNN 在目标分类任务(学习对图像中包含的目标进行分类)中达到了人类水平的性能。这些同样的网络在迁移学习方面表现出了很强的性能。在迁移学习中,CNN 最初在与感兴趣的任务无关的大量数据集(例如ImageNet,一个包含数百万普通日常物体的数据集)上进行训练,然后在与感兴趣的任务相关的更小的数据集(例如医学图像)上进行微调。在第一步中,算法利用大量数据来学习图像直线、曲线、颜色等自然统计信息;在第二步中,算法的高层被重新训练以区分诊断病例。类似地,目标检测和分割算法识别图像中与特定目标相对应的特定部分。CNN 方法以图像数据为输入,通过一系列卷积和非线性运算进行迭代扭曲,直到原始数据矩阵转化为隐含图像类别(如医疗诊断案例)上的概率分布(图2)。

图2 医学影像学。CNN在各种医学图像上进行训练,包括放射学、病理学、皮肤学和眼科。信息从左到右流动。CNN获取输入图像,并使用简单的操作(如卷积、池化和全连接层)将其转换为展开向量。输出向量(softmax层)的元素表示患病的概率。在训练过程中,对网络层的内部参数进行迭代调整,以提高精度。通常,较低层(左)学习影响高层表示(右)的简单图像特征,例如边和基本形状。预测任务包括图像分类(即癌与良性)以及医学特征(例如肿瘤)的定位。

值得关注的是,深度学习模型在各种诊断任务中都达到了医生级别的准确性,包括识别黑色素瘤痣、糖尿病视网膜病变、心血管风险、眼睛的光学相干断层成像(OCT)、乳房X光片中的乳腺病变检测,以及脊髓磁共振成像分析。一个单一的深度学习模型甚至被证明在跨医疗模式(如放射学和眼科)的诊断上是有效的。然而,在比较人类和算法性能的研究中,一个关键的限制是缺乏临床背景。它们限制了仅使用手边的图像进行诊断。这通常增加了人类的诊断任务的难度,他们在现实世界的临床环境中可以访问医学图像和补充数据,包括患者历史和健康记录、附加测试、患者证词等。

临床开始使用图像目标检测和分割来处理紧急和容易丢失的病例,例如使用放射性图像标记大脑中的大动脉阻塞。在此期间,患者在永久性脑损伤发生之前有有限的时间(几分钟)。此外,组织病理读片,通常需要人类专家费力地扫描和诊断数百万像素的图像(或相当大的物理幻灯片),现在可以使用训练用于检测有丝分裂细胞或肿瘤区域的 CNN 来辅助。他们可以被训练来量化组织病理学图像中PD-L1的数量,这对于确定患者将接受哪种类型的免疫肿瘤药物非常重要。结合像素级分析,CNN 甚至被用来发现与存活率相关的组织的生物学特征。

为新的医学成像任务构建一个有监督深度学习系统的主要限制是访问一个足够大的标记数据集。特定任务的小数据集和标记数据集更容易收集,但会导致算法在新数据上的性能较差。在这些情况下,大量数据扩充技术被证明是有效的,有助于提高算法泛化能力。类似地,大规模未标记的数据集也更容易收集,但改用半监督和无监督技术(如生成对抗网络)。

自然语言处理

自然语言处理(NLP)的重点是分析文本和语音,以推断词义。递归神经网络(RNN)是一种有效处理语言、语音和时间序列数据等顺序输入的深度学习算法,在 NLP 领域发挥了重要的作用。NLP 的典型成功案例包括机器翻译、文本生成和图像字幕。在健康医疗领域,时序深度学习和语言技术推动了电子健康记录(EHR)等领域的应用。

EHR 正在迅速普及。一个大型医疗机构的 EHR 可以在十年内收集超过1000万患者的医疗记录。仅一次住院治疗通常就产生约150000条数据。这些数据的潜在价值是巨大的。这种规模的 EHR 相当于20万年的医生智慧和1亿年的患者结果数据,涵盖了大量罕见的疾病和疾病。因此,将深度学习方法应用于 EHR 数据是一个快速发展的领域。

图3概述了为 EHR 构建深度学习系统的技术步骤。原始数据首先需要进行跨机构聚合,以确保构建一个通用系统。然后对数据进行标准化和跨患者和时序解析,使其适合于深度学习训练。从中,我们可以推断出高层次医学问题的答案,例如“过去的病史与患者当前的诊断有关吗?”,“患者当前的问题列表是什么?”以及 “有什么机会进行干预?

图3 使用 EHR 进行预测。a、非结构化 EHR 数据。医疗记录存储在特殊的数据结构和格式中,这样基于给定医院记录构建的模型就不一定能处理来自不同医院的数据。b、 数据标准化。通过将数据从多个站点映射到基于 FHIR 的单一格式,数据被标准化为同质格式。c、排序。通过将所有数据按时间顺序排列到患者时间轴中,基于序列深度学习技术可以应用于整个 EHR 数据集,以便对单个患者进行预测。

目前大多数工作都是在有限的结构化数据集上使用有监督学习进行预测,包括实验室结果、生命体征、诊断代码和人口统计。为了解释 EHR 中包含的结构化和非结构化数据,研究人员开始采用无监督学习方法,例如自编码器。首先训练网络通过压缩然后重建未标记数据来学习有用表示,以预测特定的诊断。深度学习模型的最新应用是利用卷积和递归神经网络对患者记录中发生的结构化事件的时间序列进行预测,以预测未来的医疗事件。这项工作的大部分集中在重症监护医疗信息集市(模拟)数据集(例如,脓毒症预测),其中包含来自单一中心的重症监护病房(ICU)患者。虽然 ICU 患者比非 ICU 患者产生更多的 EHR 数据,但其患者数量却大大少于非 ICU 患者。因此,我们仍然无法确定从这些数据中获得的技术是否能够推广到更广泛的人群中。

下一代自动语音识别和信息提取模型将有可能开发临床语音助手准确地转录患者就诊。医生很容易在一天11小时的工作中花6个小时在 EHR 中处理文档,这会导致精疲力尽,减少与患者相处的时间。自动抄写将缓解这一问题,并促进更实惠的抄写服务。以基于 RNN 的语言翻译为例,它使用端到端技术将一种语言中的语音直接翻译成另一种语言中的文本。这项技术适用于 EHR,可以将患者-提供者的对话直接转换为转录的文本记录。关键的挑战在于在准确总结对话的同时,从对话中对每个医疗实体的属性和状态进行分类。虽然这些技术在早期的人机交互实验中很有前途,但在医学实践中尚未得到广泛应用。

未来的工作可能集中在开发算法,以更好地利用 EHR 中一些信息丰富的非结构化数据。例如,在开发预测系统时,临床笔记经常被省略或修改。现在,大规模 RNN 开始通过以半监督方式将结构化和非结构化数据结合起来,展示出了令人印象深刻的预测结果。这种数据组合使他们能够从更广泛的人群中学习更多不同的数据类型,在死亡率、再入院率、住院时间和诊断预测等任务中优于其他技术。

强化学习

强化学习(RL)是指一类旨在训练计算代理成功地与环境交互的技术,通常是为了实现特定的目标。这种学习可以通过试错、示范或混合方法进行。当一个智能体在其环境中采取行动时,一个奖赏和结果的迭代反馈回路训练智能体更好地完成目标。从专家示范中学习可以通过有监督学习(即模仿学习)直接学习预测专家行动来完成,也可以通过通过推断专家的目标(即逆强化学习)来完成。成功地训练一个智能体的关键是要有一个模型函数,它可以从环境中接收感知信号,并输出智能体要采取的下一个行动。深度强化学习以深度学习模型作为模型函数,显示出良好的应用前景。

一个深度强化学习能够发挥作用的医疗领域是机器人辅助手术(RAS)。目前,RAS 在很大程度上依赖于外科医生以遥控方式引导机器人。通过使用计算机视觉模型(如 CNN)感知手术环境和强化方法学习外科医生的身体运动,深度学习可以增强 RAS 的鲁棒性和适应性

这些技术支持高度重复和时间敏感的手术任务的自动化和速度,如缝合和打结。例如,计算机视觉技术(例如,用于目标检测、分割和立体视觉的CNN)可以从图像数据重建开放伤口的景观,在考虑关节限制和障碍物等外部约束的情况下,通过求解路径优化问题来寻找最优的缝合或打结轨迹。类似地,经过图像训练的RNN 可以通过从外科医生那里学习事件序列(在本例中是物理动作)来学习自动打结。

这些技术对于全自主机器人手术或微创手术尤其有利。以现代腹腔镜手术(MLS)为例,在这种手术中,几个小切口被用来将一些器械插入体内,包括摄像机和手术工具,然后由外科医生进行远程手术。深度模拟学习、RNN和轨迹转移算法可以完全自动化手术程序的某些远程操作任务7。在MLS中,重复性任务的自动化比开放手术更为关键。例如,在MLS中打一个结可能需要3分钟,而不是几秒钟,比如在开放手术中。

半自主遥操作的主要挑战之一是在手术场景附近正确定位仪器的位置和方向。在这里,最新的像素级仪器分割技术,发展使用改进的 U-Net 架构 CNN,开始显示出希望。深度学习在外科机器人中应用的另一个挑战是数据收集。深度模仿学习需要大规模的训练数据集,每个手术动作都有许多样本。鉴于许多手术都是细致入微且独特的,因此仍然难以为更一般的手术任务收集足够的数据。此外,对于自主系统来说,仍然很难适应完全未知和不可观测的情况,这些情况与以前看到的任何情况都非常不同,例如异常的手术事故。

广义深度学习

除了 CV、NLP 和 RL 任务外,深度学习还适用于输入数据细微差别且需要专门处理的领域。在基因组学领域深度学习已经超越了传统的方法(例如,基于 CNN 或 RNN 的)来处理独特的(例如,非图像的、非时序的)数据表示。

现代基因组技术收集了各种各样的测量数据,从个体的 DNA 序列到血液中各种蛋白质的数量。深度学习在改进分析这些测量的方法上有很多潜力,这将最终帮助临床医生提供更准确的治疗和诊断。构建基因组学深度学习系统的典型流程包括获取原始数据(例如,基因表达数据),将原始数据转换为输入数据张量,并将这些张量输入给神经网络,然后为特定的生物医学应用提供支撑(图4)。

图4 基因组学中的机器学习。a、输入数据。基因组数据包括实验测量,从中可以预测某些特性或结果。这些数据通常是多样的,可能包括测序、基因表达、功能数据以及其他形式的分子数据。b、数据张量示例。原始的实验测量数据需要转换成一种适合深学习算法使用的形式,该算法以多维数据张量和相关的目标标签作为输入。c、DNN。标注的张量用于训练 DNN 从输入数据张量预测标签。d、 生物医学应用。经过训练的 DNN 可用于生物医学应用,例如预测先前未发现的数据张量的标签或检查输入数据和输出标签之间的关系。一些应用的例子包括解释实验数据(例如从测序仪的输出推断DNA序列或推断DNA突变对基因剪接的影响)和分子诊断(例如预测基因突变对疾病风险或药物反应的影响)等。

全基因组关联(GWA)研究大型病例对照研究有大量的机会,这些研究试图发现影响特定性状的因果基因突变。分析 GWA 研究需要一些算法,这些算法可以扩展到非常大的患者队列,并处理潜在的混杂因素。这些挑战可以通过为深度学习而开发的优化工具和技术来解决,包括随机优化和其他现代算法,结合用于并行缩放计算的软件框架,以及通过建模技术来出来混杂因素。在不久的将来,将外部模式和其他生物数据来源整合到 GWA 研究中的模型,例如医学图像或剪接和其他中间分子表型的测量,也可能受益于深度,以更准确地识别疾病相关的因果突变

了解疾病的遗传学可以为临床医生推荐治疗方法并提供更准确的诊断。医生面临的一个关键挑战是确定患者基因组中的新变异是否与医学相关。在某种程度上,这一决定依赖于预测突变的致病性;这项任务已经利用蛋白质结构和进化守恒等特征来训练学习算法。鉴于它们更强大的能力和有效整合不同数据类型的能力,深度学习技术可能提供比目前更准确的致病性预测。

机器学习在遗传数据的表型预测中也起着重要的作用,包括复杂的性状,如身高和疾病风险。深度学习可以通过集成其他模式(如医学图像、临床病史和可穿戴设备数据)进一步增强此类模型。一种特别有前途的表型预测方法是预测中间分子表型,例如基因表达或基因剪接,然后将其输入下游疾病预测因子。中间分子状态比人类特征更容易预测,因为更大、更近的信号和更广泛的训练数据。这两个特征使得该问题非常适合于深入学习,这在预测剪接和转录因子结合方面取得了成功。

基因组数据也可以直接作为疾病发生和发展的生物标志物。例如,血液中含有从身体其他部位的细胞释放出来的无细胞 DNA 的小片段。这些片段是器官排斥反应(即免疫系统攻击移植物细胞)、细菌感染和早期癌症的无创性指标。无细胞 DNA 被成功地用于产前诊断:胎儿 DNA 存在于母亲的血液中,表明染色体畸变,并能揭示胎儿的整个基因组。生物标记物数据通常是嘈杂的,需要复杂的分析(例如,确定无细胞 DNA 是否预示着癌症)。深度学习系统可以提高针对DNA序列、甲基化、基因表达、染色质轮廓和许多其他测量的生物标记物分析的质量。

0 人点赞