图灵奖得主 LeCun 用来怼 Google 的乳腺癌 AI 论文，有何过人之处？

LeCun怼谷歌是有底气的，毕竟这篇3个月前就发表的论文，比现在的谷歌模型准确率还要高出10%。

编译 | 王优雅

2020年的第一天，谷歌就在医疗领域曝出了一个大新闻：谷歌健康部门联手DeepMind在顶尖学术期刊《Nature》上发布人工智能乳腺癌检测系统。

这个系统的核心亮点是，与之前的模型相比，该模型有效减少了乳腺癌被错误识别或遗漏的情况，将乳腺癌检测的假阳性率降低了5.7%，假阴性率也降低了9.4%。

作者称，该系统检测乳腺癌的能力超过专业放射科医生，或有助提高乳腺癌筛查的准确性和效率。

但是过了一天之后，深度学习“三巨头”之一的LeCun就对这项成果开炮。雷锋网AI掘金志对此事也进行了报道：《刚过一天就被拆台？LeCun公开质疑谷歌《Nature》的乳腺癌AI研究成果》

他表示，谷歌这篇论文的结果，纽约大学的团队在2019年10月就已经做过了，谷歌应当引用纽约大学的研究，因为这个研究效果还更好。

效果有多好？谷歌论文AI系统中的AUC是0.889（UK）和0.8107（US），纽约大学的AUC达到了0.895。

另外一位学者Hugh Harvey也为LeCun打call。他表示，谷歌的研究中包含了6名放射科医生，而NYU的研究则用了14名。

围绕这一次小小的学术“风波”，雷锋网AI掘金志学术组对纽约大学的这篇论文进行了编译和编辑，看看这篇“先人一步”的论文有何可取之处？

以下为论文详细内容，关注AI掘金志公众号，在对话框回复关键词“纽约大学”，即可获取原文PDF。

摘要

我们提出了一个用于乳腺癌筛查检查分类的深度卷积神经网络，基于超过200000个乳腺检查（超过1000000个图像）上进行训练和评估。对人群进行筛查检测时，我们的网络在预测乳腺癌存在方面的AUC达到0.895。

我们把高准确率归因于以下技术进步：

一、网络创新性地分为两个不同阶段的架构和训练过程，我们在使用高容量patch-level网络从pixel-level标签学习的同时，设置另一个网络从整体上学习乳房级标签。

二、基于ResNet的自定义网络，用作我们模型的构建块，其深度和宽度方面的平衡针对高分辨率医学图像进行了优化。

三、在BI-RADS分类上对网络进行预训练，这是一项标签噪音较大的相关任务。

四、在许多可能的选择中以最佳方式组合多个输入视图。为了验证我们的模型，我们组织14位放射科医师进行了阅片，每位医师查看720份乳腺钼靶筛查图像。结果表明，我们的模型与有经验的放射科医生的判断结果一样准确。

此外，将放射科医生对恶性肿瘤的判断结果和我们神经网络的预测结果平均起来的混合模型更加准确。我们将模型在以下网址公开发布：

https://github.com/nyukat/breast_cancer_classifier

介绍

乳腺癌是美国女性第二大癌症相关死亡原因。2014年，美国进行了3900多万次筛查和乳腺钼靶诊断检查。据估计，在2015有232000名妇女被诊断为乳腺癌，约有40000人死于乳腺癌。

尽管乳腺钼靶是唯一一种可以降低乳腺癌死亡率的影像学检查方法，但大家一直在讨论该筛查的潜在危害，包括假阳性和假阳性导致的活检。10-15%的女性在做了未确定的乳房X光检查后被要求再次接受检查和/或超声波检查以进一步明确。经过额外的影像检查后，许多女性被确定为良性，只有10-20%被推荐接受针活检。其中，只有20-40%的人诊断出癌症。

显然，我们还需要让常规乳腺癌筛查更加准确，并减少对女性身体的伤害。

尽管多中心研究表明，传统计算机辅助诊断程序并不能提高诊断效果，但放射科医生还是会使用它来帮助图像判读。深度学习的发展，特别是深卷积神经网络（CNN）为创建新一代类似CAD的工具提供了可能性。

本文的目标是研发神经网络以帮助放射科医生判读乳腺癌筛查图像。

（i）我们提出了一种新的两阶段神经网络，将全局和局部信息结合起来，并采用适当的训练方法。这使得我们可以使用一个非常高容量的patch-level网络来学习pixel-level标签，同时使用另一个网络来从整体上学习乳房级标签。

通过这种策略，我们的模型不仅实现了与人类相当的竞争成绩，同时产生可解释的热图，显示可疑发现的位置。此外，我们还证明了像素级标签的实用性，即使在我们有很多图像级标签的情况下也是如此。

（ii）我们证明了利用超过1000000张高分辨率乳腺X线摄影图像（这是医学成像中的一个非常大的数据集，不仅仅是用于乳腺癌筛查）来训练和评估该网络的可行性。这对于未来的研究设计以及展示这种方法的概念和价值都具有重要价值。

（iii）我们提出了专门为医学成像设计的ResNet的新变体，用作我们网络的构建块，它在深度和宽度上做了平衡，允许模型处理非常大的图像，同时保持合理的内存消耗。

（iv）我们评估了使用具有更高噪声的相关任务（ BI-RADS分类）对网络进行预训练的效用，并发现它是管道中一个非常重要的部分，显著提高了我们模型的性能。这在大多数数据集都很小的医学影像研究中特别重要。

（v）我们评估了在单一的神经网络中结合来自不同乳腺摄影视图的多种方法。我们未发现以前有过这样的分析，尽管医学成像任务通常有多个输入。

数据

我们的回顾性研究得到了机构审查委员会的批准，符合《医疗保险可携带性和责任法案》。这个数据集是我们早期工作中使用的数据集的更大、更仔细的版本。

数据集包括来自141473名患者的229426份数字乳腺摄影筛查（1001093张图像）。每次检查至少包含4张图像，与乳房X光摄影中使用的4个标准视图相对应：R-CC、L-CC、R-MLO和L-MLO。数据集中的图像来自四种类型扫描器：Mammomat Inspiration（22.81%）、Mammomat Novation DR （12.65%）、Lorad Selenia（40.92%）和Selenia Dimensions （23.62%），图1显示了一些检查示例。

【图一】

我们依赖活检的病理报告，来标记患者的每个乳房是否有恶性或良性发现。我们有5832个检查在进行乳腺X片筛查的120天内至少完成一次活检。其中活检证实985例（8.4%）为恶性，5556例（47.6%）为良性，234例（2.0%）乳腺同时有良恶性征象。

对于所有与活检相匹配的检查，我们要求一组放射科医生回顾性地指出活检病灶在像素级别的位置（提供相应的病理报告）。

我们发现大约32.8%的检查是隐匿性的，也就是说，活检的病灶在乳腺钼靶摄影中是不可见的，使用其他成像方式识别（超声或MRI）被识别。详见表一。

【表一】

肿瘤分类深度CNN网络

一些乳腺同时包含恶性和良性病灶，我们使用多任务分类模型将乳腺癌筛查分类。也就是说，对于每一个乳腺，我们分配两个二元标签：乳房中有/没有恶性发现（表示为yR，m和yL，m），乳房中有/没有良性发现（表示为yR，b和yL，b）。左右乳腺加起来，每个检查共有4个标签。我们的目标是生成四个对应于每个标签的预测（用ˆyR，m，ˆyL，m，ˆyR，b和ˆyL，b表示）。

虽然我们主要对预测恶性病灶的存在与否感兴趣，但预测良性病灶的存在与否对于辅助调整模型学习任务起着重要的作用。我们将四个高分辨率图像，对应于四个标准乳腺钼靶摄影视图作为输入（由xR-CC、xL-CC、xR-MLO和xL-MLO表示）。

对于CC视图，我们将每个图像裁剪为固定大小的2677×1942像素，对于MLO视图，裁剪为2974×1748像素。有关示意图，请参见图3。

【图三】

模型结构和训练

我们受Geras等人先前工作的启发，对图5所示的四种不同结构的多视图CNN进行了训练。所有这些网络都由两个核心模块组成：（i）四个特定于视图的列，每个列基于ResNet体系结构，该结构为每个乳腺摄影视图输出固定维度的隐藏层向量表示；（ii）两个全连接层，将计算出的隐藏层向量映射到输出预测。这些模型在如何聚合来自所有视图的中间层以生成最终预测的方式有所不同。

我们考虑了以下4种方式。

【图5】

1） ‘view-wise’模型（图5（a））分别将L-CC和R-CC、L-MLO和R-MLO连接起来。它对CC和MLO视图进行单独的预测，最后将相应的预测取平均值。

2） ‘image-wise’模型（图5（b））独立地对四个视图中的每一个进行预测。相应的预测最后取平均值。

3） ‘side-wise’模型（图5（c））首先连接L-CC和L-MLO，以及R-CC和R-MLO，然后分别对每侧乳腺进行预测。

4） ‘joint’模型（图5（d））连接所有四个视图，共同预测两个乳房的恶性和良性概率。

在所有模型中，我们使用四个基于ResNet的22层网络（ResNet-22）作为中间层，计算每个视图的256维隐藏层向量。与标准ResNets相比，该网络具有不同的深度和宽度比例，可用于分辨率非常高的图像。

我们发现“view”模型在验证集上预测恶性/非恶性是最精确的。除非另有说明，否则我们接下来说的都是该模型的结果。

【图4】

A.单个ResNet-22

ResNet-22的完整架构如图4所示。L-CC和R-CC ResNets、L-MLO和R-MLO ResNets共享权重。我们在输入模型之前翻转了L-CC和L-MLO图像，因此所有乳房图像都是右向的，允许共享的ResNet权重在相同方向的图像上操作。每个ResNet的中间输出是H×W×256维张量，其中H和W从原始输入大小下采样，CC视图H=42，W=31，MLO视图的H=47，W=28。我们在空间维度上对向量进行平均，以获得每个视图的256维隐藏向量。

作为参考，我们在表2中显示了ResNet-22的每一层后中间向量的维度。将标准Resnets应用于乳房X光摄影的主要原因是需要处理分辨率非常高的图像，而不需要在GPU限制下进行下采样来拟合前向过程及梯度计算。

【表2】

B. 辅助patch-level 分类模型及热图

图像的高分辨率和GPU的有限内存，限制了我们在使用全分辨率图像作为输入时在模型中使用相对较浅的resnet。为了进一步利用乳腺X线照片中细粒度的细节，我们训练了一个辅助模型来对256×256像素的乳腺X线图片进行分类，预测在给定的patch中是否存在恶性和良性的病灶。

这些patch的标签是由临床医生手动勾画的。我们将此模型称为patch-level模型，与上面一节中描述的对整个乳房图像进行操作的breast-level模型不同。

我们将该辅助网络以滑动窗口方式扫描全分辨率乳房X片图像，以创建每张图像的两张热图（图6为一个示例），一张代表每个像素恶性病变概率，另一张代表每个像素良性病变概率。总共，我们获得了八个附加图像：Xm R-CC、Xb R-CC、Xm L-CC、Xb L-CC、Xm R-MLO、Xb R-MLO、Xm L-MLO、Xb L-MLO。这些补丁分类热图可以用作乳腺级别模型的附加输入通道，以提供补充的细粒度信息。

【图6】

C. BI-RADS分类预训练

由于我们数据集中有活检的检查相对较少，我们应用迁移学习来提高模型的稳健性和性能。迁移学习重用在另一个任务上预先训练的模型的一部分作为训练目标模型的起点。

对于我们的模型，我们从BI-RADS分类任务的预训练网络中迁移学习。我们考虑的三个BI-RADS类是：类别0（“不正常”），类别1（“正常”）和类别2（“良性”）。一些研究解释了用于提取这些标签的算法。尽管这些标签比活检结果噪声更多（是临床医生根据乳房X光片进行的评估，而不是通过活检获得信息），但与训练集中经活检证实的4844次检查相比，我们有99528多个BI-RADS标签的训练示例。

神经网络已经被证明，即使是在使用噪声标签进行训练时，也能够达到合理的性能水平。我们使用这个特点将用BI-RADS标签学习到的信息迁移到癌症分类模型。我们的实验表明，BI-RADS分类预训练网络对我们模型性能有显著的贡献（见第V-E节）。BI-RADS预训练网络结构如图７所示。

【图7】

实验过程

在所有的实验中，我们使用训练集来调整我们的模型参数，使用验证集来优化模型和训练过程的超参数。除非另有说明，否则均是筛选人群的计算结果。为了进一步改进我们的结果，我们采用了模型集成技术，对几个不同模型的预测进行平均，以产生集成的总体预测。

在我们的实验中，我们针对每个模型训练了五个副本，在全连接层中对权重进行了不同的随机初始化，而剩余的权重则使用BI-RADS分类中预先训练的模型的权重进行初始化。

A. 测试人群

在下面的实验中，我们在几个不同群体上评估我们的模型，以测试不同的假设：

（i）筛查人群，包括来自测试集的所有检查，不进行亚抽样

（ii）活检亚群，这是筛查人群的子集，仅包括接受活检的乳腺筛查人群的检查

（iii）阅片研究亚群，包括活检亚群和未发现任何病灶的筛查人群随机抽样的子集

B. 评价指标

我们主要根据AUC（ROC曲线下的面积）评估我们的模型对乳腺恶性/非恶性和良性/非良性分类任务的性能。阅片研究模型和阅片者对图像的分类成绩是根据AUC和PRAUC来评估的，这两个是评估放射科医生成绩的常用指标，ROC和PRAUC代表预测模型不同方面的性能。

C. 筛查人群

本节为筛选人群的结果，不同模型的结果如表３所示。总体而言，四个模型的AUC都较高且基本持平。‘view-wise’image-and-heatmaps集成模型在结构上与预训练阶段使用的BI-RADS模型最为相似，在预测恶性/非恶性方面表现最佳，在筛查人群的AUC为0.895，活检人群的AUC为0.850。

然而在良性/非良性预测方面，其他一些模型确实优于‘view-wise’集成模型。仅有图像输入的四种模型表现大致相当，低于image-and-heatmaps模型。在恶性/非恶性分类中，image-and-heatmaps模型比良性/非良性分类有更强的改进。

我们还发现，ensembling在所有模型中都是有益的，这使得AUC的小而稳定的提升。

image-and-heatmaps模型的四个变体模型集成后，在筛查人群中对良性/非良性预测任务的AUC为0.778，恶性/非恶性预测的AUC为0.899。尽管这种性能优于任何单独的模型，但在实践中运行这样一个由20个独立模型组成的大型集成体将非常昂贵。

D. 活检亚群

我们在表３的右半部分显示了模型在活检人群中的评估结果。我们的测试集有401个乳腺，其中339个有良性发现，45个有恶性发现，17个两者均有。活检亚群与总体筛查人群不同，总体筛查人群主要是健康个体，他们每年都要进行常规筛查，而没有其他的影像学或活检。与筛查人群的结果相比，所有模型在活检人群的AUC明显较低。

在活检亚群中，我们观察到image-only模型与image-and-heatmaps 模型之间的一致性差异。image-and-heatmaps集成模型在恶性/非恶性分类上表现最好，AUC达到0.850，在良性/非良性分类上表现同样最好，AUC达到0.696。与筛查人群相比，活检亚群获得的AUC明显较低，这可以解释为，需要进一步影像学检查和活检的乳腺图像对于放射科医生和我们的模型均具有挑战性。

E. BI-RADS预训练的重要性

我们通过将我们的模型与未使用BI-RADS预训练模型的权重而训练的癌症分类模型的性能相比较，来评价BI-RADS预训练的益处，结果见表三（用*标记）。

【表三】

阅片研究

为了将我们的image-and-heatmaps集成模型（以下简称模型）的性能与放射科医生进行比较，我们对14名医师进行了一项阅片研究，其中有12名具有不同经验水平的放射科医生（2至25年），一名住院医生和一名医科学生，分别从测试集（1480个乳腺）中阅读740份检查：368份从活检亚群中随机选择的检查，372份从与活检不匹配的检查中随机选择的检查。医师被要求以0%-100%的比例为每个乳房提供恶性肿瘤的概率估计。

由于一些乳腺含有多个可疑的发现，医师被要求对他们认为最可疑的病灶进行评估。我们模型的AUC为0.876，PRAUC为0.318。医师的AUC从0.705到0.860不等（平均值：0.778，标准值：0.0435），PRAUCs从0.244到0.453不等（平均值：0.364，标准差：0.0496）。图8（a）和图8（c）示出了单个ROC和precision-recall 曲线及其平均值。

我们还评估了人机混合模型的准确性，其预测是基于放射科医生和模型预测的线性组合。混合模型平均AUC为0.891（标准差：0.0109），平均PRAUC为0.431（标准差：0.0332）（参见图8（b），图8（d））。

这些结果表明，我们的模型可以作为一个工具来帮助放射科医生阅读乳腺癌筛查检查，并且与有经验的乳腺放射科医生相比，它提供了任务不同方面的信息。在补充材料的I-G-1节中可以找到一个定性分析，比较模型和放射科医生对特定检查的预测结果。

【图8（b）】

【图8（d）】

结论和讨论

通过利用一个带有breast-level和 pixel-level标签的大型训练集，我们构建了一个能够准确分类乳腺癌钼靶检查的神经网络。我们将这一成功归因于patch-level 模型中封装的大量计算，该模型被应用于输入图像，以形成热图作为breast-level 模型的附加输入通道。使用当前可用的硬件完全以端到端的方式训练此模型是不可能的。

虽然我们的结果令人满意，但我们实验中使用的测试集相对较小，结果需要进一步的临床验证。

此外，尽管我们的模型在阅片研究特定任务上的性能比放射科医生的强，但是放射科医生执行的任务不仅仅于此。通常情况下，乳房X光摄影只是诊断流程中的第一步，放射科医生结合其他影像科检查后，才能做出最终的决定。

然而，在我们的研究中神经网络和放射科医生的混合模型分别优于这两个模型，这表明使用这种模型可以提高放射科医生对乳腺癌检测的敏感性。

另一方面，我们的模型设计相对简单，有希望进一步研究更复杂和精确的模型。除了测试该模型在临床试验中阅读乳房钼靶的效用外，下一个明确的目标是预测乳腺癌的发展——甚至在放射科医师可以看到病灶之前。

ads bi image patch

0 人点赞