该研究是新的一年继Google乳腺癌AI论文之后,于顶刊登出的又一重要医学AI成果。Google此前由于过于夸大AI效果,引来了图灵奖得主Yann Lecun以及中美多位知名学者在社交媒体上的炮轰。那么这篇研究成果又是什么样的呢?
近日,瑞典研究团队发表在《柳叶刀肿瘤》杂志上前列腺癌AI辅助诊断研究论文正式公布。
科研人员发现,AI能够准确从活检中检测出前列腺癌,从而有可能加快诊断速度并降低医疗服务成本。(关注AI掘金志公众号,在对话框回复关键词“瑞典AI”,即可获取文章地址。)
当前,全球各地前列腺活检人数的增加与泌尿病理学家的短缺,为病理科带来了巨大压力。此外,前列腺癌的高变异性也导致其高频出现过度治疗和治疗不足的情况。
为了缓解这些问题,瑞典研究团队开发了一种具有临床上可接受准确性的人工智能系统,用于前列腺癌的检测、定位和格里森分级(Gleason分级是一种被广泛采用的前列腺癌组织学分级的方法)。
据文章介绍,AI系统可以接受训练以检出前列腺穿刺活检样本中的癌症并对其进行分级,在部分数据集上的特定问题诊断表现上优秀。
研究指出,人工智能技术的使用,可以通过减少对良性活检的评估,并通过自动化在阳性活组织检查核心中测量癌症长度的任务,以及提供第二种意见,来减轻肿瘤学家的工作量。
卡罗林斯卡大学医学流行病学系副教授Martin Eklund表示:“我们的AI工具可在某种程度上减少泌尿科病理学家的工作量,使他们能够专注于最困难的病例。”
在2012年5月至2014年12月之间进行的基于瑞典前瞻性和人群的STHLM3诊断研究中,瑞典研究团队从976名随机选择的年龄在50-69岁的参与者中数字化了6682张针核活检切片,并从93名研究外的男性中数字化了271张切片。
随后图像被用来训练用于评估前列腺活检的深层神经网络。
通过预测来自STHLM3的246名男性1631例活检,以及来自73名男性330例活检的外部验证数据集,独立测试数据集的恶性组织存在、程度和Gleason分级,对这些网络进行了评估。
此外还评估了来自国际泌尿病理学会23名经验丰富的泌尿病理学家对87例活检的分级表现。通过受试者的工作特征和肿瘤范围预测,将预测的肿瘤长度与报告的病理学家的测量值相关联,来评估鉴别性能,并使用Cohen’s kappa对AI系统和泌尿病理学专家的评分一致性进行了量化。
其结果是,AI在接收器工作特性曲线下获得了一个区域,该区域在0·997(95%CI 0·994–0·999)下可以区分独立测试数据集上的良性(n = 910)和恶性(n = 721)活检核心和外部验证数据集上的0·986(0·972-0·996)(良性n = 108,恶性n = 222)。
由AI预测并由报告病理学家指定癌症长度之间的相关性对于独立测试数据集为0·96(95%CI 0·95-0·97),对于独立测试数据集为0·87(0·84-0·90)。外部验证数据集,对于Gleason等级,AI的平均成对kappa为0·62,这在专家病理学家的相应值范围内(0·60-0·73)。
瑞典团队介绍到,从上述数据可以看出,用AI系统来检测和分级前列腺穿刺活检样品中的癌症,在部分场景中其等级可与前列腺病理学专家相媲美。
临床应用可以通过减少对良性活组织检查的评估,以及自动化在阳性活检核心中测量癌症长度的任务来减少病理学工作量。具有专家级评分性能的AI系统可能会产生第二种辅助决策意见,有助于标准化评分,并在世界部分地区提供病理学专业知识。
该研究也是近期继Google乳腺癌AI论文之后,学术界发表的第二个重要的医学AI成果。
1月2日,Google Health联合多个机构在《Nature》杂志上发表了一篇论文,介绍了一种新型的深度学习钼靶影像系统。根据Google的说法,这个系统与之前的模型相比,该模型有效减少了乳腺癌被错误识别或遗漏的情况,将乳腺癌检测的假阳性率降低了5.7%,假阴性率也降低了9.4%,并号称击败了6名全日制的放射科医生。
Google对该成果过于夸大的公关措辞,随之引来了图灵奖得主Yann Lecun以及中美多位知名学者在社交媒体上的炮轰