这是首次利用人工智能从X光图像中识别心律装置的研究。对于从未见过的图像,AI识别设备制造商的准确率为99.6%,对应的专家识别准确率为62.3%到88.9%。
编译 | 风车云马
伦敦帝国理工学院的研究人员开发了一种基于AI的软件,目前,这款软件被称为PPMnn(永久起搏器神经网络), 用于识别起搏器或者除颤器的制造商和型号。该研究结果发表在美国心脏病学会(JACC):临床电生理学杂志上。这篇论文介绍了基于神经网络的系统的开发、验证和有效性。以下为论文详细内容,由AI掘金志学术组编译。关注AI掘金志公众号,在对话框回复关键词“JACC”,即可获得原文链接。
背景
全世界每年有超过一百万人进行心律装置的移植手术,在移植过程中,医护人员通常是通过一些算法来辅助自己识别设备的X图像,进而确定起搏器或除颤器的制造商和型号。但即使是最有效的算法,识别也不是完美的,而一旦错误就会导致病情延误。
事实上,多达80%的心脏相关专科医生报告说他们“经常”难以识别设备。
研究人员对来自5家生产厂家的45种型号的1676台设备的X光图像进行提取。利用1451幅图像作为训练集,建立了卷积神经网络对图像进行分类。测试集还包含其余的225幅图像,每种型号包括5个样本,并将神经网络识别设备的能力与心脏病专家进行了比较。
结果显示,神经网络对制造商设备的识别准确率为99.6%(95%置信区间:97.5 ~ 100),对型号的识别准确率为96.4%(95%置信区间:93.1 ~ 98.5)。5名心脏病专家对制造商识别正确率的均值为72.0%(范围为62.2% ~ 88.9%),无法进行型号识别。可以看出,基于神经网络识别的能力明显优于所有心脏病专家。
方法
数据提取
在本研究中,数据集是选取1998年2月至2018年5月期间在 Imperial College Healthcare NHS Trust医疗保健中心植入的心率仪的图像。
训练神经网络需要足够多的类别样例,每一类至少包括25幅图像,包括便携式和部门AP/PA胸片,不包括侧位胸片。从连续病例患者中提取图像,每个型号最多提取40张图像,以最小化类不平衡。从每张X光图像中,分割出一个比设备稍大的正方形区域,该区域最大限度地提高了网络的信噪比。然后将这些裁剪后的图像调整为224×224像素,并进行归一化,得到0到1之间的像素值。在提取过程中注意,在某些情况下,如果制造商引进一种新型号时,在X光图像上没有检测到变化,这可能只是设备软件上的一个更新,或者是部件外观上几乎相同无法区分。
第一步,是从45类中随机分配5张图片作为“测试集”,这在网络的任何训练阶段都不会用到,在最终验证准确性时才会使用。
剩下的“训练集”用于训练网络,分为两个不同阶段:第一个阶段是决定使用哪个底层网络(包括结构特征,如层的数量和大小)以及训练的快慢(称为 “学习率”)。这些卷积神经网络类似于人类大脑的层次结构组织,解决图像分类问题;第二阶段是调整权重的详细过程,以对起搏器进行分类。这两个阶段都使用了训练集,但方式不同。
在网络训练第一阶段 (如图1所示),每种神经网络候选模型都从75%的训练集中学习,并正确预测剩余25%的训练集。如此重复4次,这样所有的训练集都轮流扮演了两个角色。这个过程被称为“4次交叉验证”。
图1 网络设计流程图
第二阶段,基于第一阶段选择的神经网络模型开始,但是使用整个训练集对网络进行训练,得到最终的神经网络模型。
最后,这个训练好的网络模型第一次向“测试集”公开,“测试集”始终保持独立,以评估其正确分类制造商和型号的能力。
该研究获得了卫生研究管理局(集成研究应用系统标识249461)的监管批准。
卷积神经网络架构与训练
我们评估了五种不同的卷积神经网络架构(DenseNet、Inception V3、VGGNet、ResNet和Xception),这些架构在近几年都是世界领先级的。在对整个模型进行再训练时,使用ImageNet上训练得到的权值对所有网络进行初始化。
对于每个网络,输出层设置为45个密集连接的神经元(对应每个设备型号1个)。使用交叉熵损失函数对其中16幅图像进行损失计算,并使用ADADELTA优化器更新权重。损失是用来评估网络性能和改进网络性能的技术指标。损失比简单的错误率(准确度的倒数)更敏感,因为要获得满分(零损失),网络对每个心脏起搏器图像的正确预测达到100%。
神经网络的训练是一个自动调整权值以使损失最小化的过程,直到损失函数达到稳定。使用Tensorflow和Keras机器学习框架的Python编程语言进行编程。
可视化
对每个例子进行处理以提供特征映射,其中梯度最高的像素对应于正确的类(突出显示对网络决策贡献最大的像素),这可以使用Keras-vis软件完成 。
借助算法的专家测试
将225张图像的测试集提供给5名心脏病专家(其中两个是电生理学家),同时提供心律仪识别算法CaRDIA-X(3)。该算法只针对制造商进行区分,而不能识别特定的型号。对于每一幅图像,都已知是起搏器、除颤器还是循环记录器。
我们要求评分者将每种设备分类为Biotronik、Boston Scientific、Medtronic、Sorin或St. Jude Medical。
统计分析
对比测试神经网络和借助CaRDIA-X算法的专家对制造商分类的结果。采用McNemar检验进行评估,p值0.05作为统计特征阈值。最后参照每位专家的评估结果计算精度均值。
精确度定义为测试集中正确分类的图像数量除以测试集中图像的总数。精确度的置信区间使用二项式方法计算。对于大小不相等的制造商类别,也计算F1分数,定义为精度和召回率的平均值的两倍,范围在0和1之间。
使用费希尔精确检验,对网络的准确性进行了不同子组的评估。韦尔奇不等方差t检验通过计算每张图像的拉普拉斯方差来评估部门和便携式x线片在图像清晰度方面的差异,采用R软件进行统计分析。
结果
数据集
数据集总共包括来自1575名患者的1676张不同设备的图像。尽管有66种不同的设备型号,但其中一些在视觉上是无法区分的,这可能只是设备中软件的变化。型号组共有45个,其中278张X光图像来自便携式设备,其余1398台为部门AP/PA片。
测试集45种型号中每种型号由5个样本组成,总共225个样本。
(左)条形图显示了识别5个人类报告者和神经网络中的设备制造商的比较准确性。p值是指中位数和最佳人类评分之上的神经网络的优越性。(右)混淆矩阵显示网络在预测正确的设备制造商时的准确性。BIO = Biotronik; BOS = Boston Scientific; MDT =美敦力; SOR =索林; STJ = St. Jude。
阶段1:不同神经网络架构的性能比较
对于所有的网络模型,经过阶段1的训练后,网络的性能都达到了一个稳定状态,损失函数也下降到一个平稳水平。VGGNet的准确率为4.4%,Xception的准确率为91.1%。
第一阶段的结论是为第2阶段选择Xception架构打下基础,并预先指定训练的epoch为15。然后第二阶段从一个全新的Xception神经网络开始,使用1451张完整的训练集进行训练。最后,使用第二阶段生成的最终神经网络对“测试集”数据进行测试验证。
阶段2: “测试集”验证神经网络性能
最终的神经网络识别设备制造商的准确率为99.6%,对应的F1得分为0.996。性能如图1所示。唯一错误分类的图像是Medtronic Adapta设备被误认为Sorin Reply设备。
不可避免地,识别模型组(而不仅仅是制造商)的性能较低,准确率为96.4% (95% CI: 93.1 ~ 98.5), F1评分为0.964分。值得注意的是,在其中的8个预测中,正确的型号是前3个预测中的1个。因此,通常描述为“前3名”的准确率为99.6% (95% CI: 97.5到100.0)。
型号识别矩阵
便携式X光图像的型号识别准确率为89.5% (95% CI: 75.2 - 97.1),而部门X线图像的准确率为97.9% (95% CI: 94.6 - 99.4)(两组间差异p = 0.029)。然而,唯一的制造商分类错误是部门X光图像。起搏器组准确率为95.0% (95% CI: 90.4 - 97.8),ICDs组准确率为96.4% (95% CI: 87.5 - 99.6%)(两组间差异p = 1.00),准确率在不同厂家之间差异不显著(p = 0.954)。
与医学专家的性能进行比较
五名心脏病专家使用CaRDIA-X算法对5家制造商的225张测试集图像进行分类。他们的准确率从62.3%到88.9%不等,平均准确率为72.0%,神经网络的准确率显著高于专家。
可视化分析
在另一项探索性分析中,我们对测试集中的每张图像都生成了特征图,显示它们所描述的心率仪的最大特征,就类似于临床医学中疾病的病征。
图3显示了包含2个不同型号的4幅图像,图4表明AT500设备的特征映射,显示围绕该设备特有的环形电路板组件。
图3
图4
讨论
这是首次利用人工智能从X光图像中识别心律装置的研究。该神经网络在识别设备制造商方面具有更高的准确性。对于从未见过的图像,该网络识别设备制造商的准确率为99.6%,对应的专家识别准确率为62.3%到88.9%。
临床应用
在一些临床应用中,使用更快的、可靠的(至少和心脏病专家一样)工具会大有用处。医生用它从一个简单的胸片快速评估心脏设备的性质。因为只有特定的制造商才能与病人的设备通信,知道带哪个程序员来可以节省宝贵的临床时间,这样可以在紧急情况下快速访问设备,提供紧急治疗。
机器学习:特征图
在图3中,大多数人包括心脏病专家,都很难区分起搏器的两种模型。然而,神经网络不仅能准确地区分它们,特征图还能突出区分它们最明显的特征。此外,一旦这个显著的特性被指出来(图4),就很容易区分。
网络架构极大地影响性能
表2显示了不同神经网络架构的性能水平,VGGNet在这项任务上的表现很差。ResNet设计了“残差连接”,这种方法使原始图像可用于网络的所有后续层,而不仅仅是第一层。GoogLeNet Inception使用“1×1卷积”在层之间压缩信息,大大降低网络的复杂性。性能最好的设计是Xception,它广泛使用了这两种创新“残差连接”和“1×1卷积”。
局限性
该神经网络可以识别英国地区常用的设备,无法适应所有的设备。当然,该网络能够不断地扩展,训练神经网络只需要新设备的25个样本。
有时候,神经网络也会得出错误的结论。尽管网络选择的正确率在96.4%。但(巧合的是)在99.6%的情况下,正确的型号是前3个预测中的1个。
所有的神经网络都有“过度拟合”的风险。我们试图以两种方式将过度拟合的风险降至最低。首先,网络的性能被定义为在未经过训练的“测试集”上的准确性。其次,网络中包括各种“正规化”方法,例如丢失和权重衰减。
让神经网络,从“工作台走到病床边”的部署可能很困难,因为在护理时并不总是需要很大的处理能力。通过提供任何人都可以使用的在线Web门户,我们可以缓解这种情况。
结论
本研究证明卷积神经网络能够从X光片上准确识别心律装置的制造商和型号。此外,它的性能显著超过使用流程图的心脏病专家。
医学能力:机器学习和人工智能在医学领域,特别是在医学图像分析领域,得到了迅速的发展。我们的方法会加速患者的诊断和治疗。本文也表明了神经网络越来越多的处理大量的医学数据(整个卫生保健系统),以及未来病人护理可能会越来越多地依赖计算机辅助决策。
成果转化:将机器学习的成果从计算机实验室转化为现实应用往往是困难的。通过研究,我们提供了一个在线教育门户网站,医生可以在线与网络互动。与以往一样,在将神经网络部署为有效工具之前,进一步的临床研究对于评估网络的准确性至关重要