当前,新冠肺炎疫情仍在蔓延,全球已确诊病例数突破 1437 万,死亡数超过 60 万,并存在进一步爆发的风险。在感染 COVID-19 的患者中,大多数呈轻度至中度症状,但也有一部分患者的病情初期表现平稳,但会以很快的速度恶化,遭遇更高的健康风险。因此,快速识别出这类有潜在重症风险的患者,对于抗击疫情意义重大。
7 月 21 日,腾讯对外披露了其在医疗健康领域的最新进展。钟南山院士团队与腾讯 AI Lab 联合发布了一项利用 AI 预测 COVID-19 患者病情发展至危重概率的研究成果,可分别预测 5 天、10 天和 30 天内病情危重的概率,有助合理地为病人进行早期分诊。
相比传统衡量肺炎严重程度的 CURB-6 模型和未进行深度学习的经典 Cox 模型,此次联合研究团队提出的深度学习生存 Cox 模型具有更高的预测准确性。通过回溯 1393 例外部患者的检验数据,该模型的预测性能也得到了实践验证,证明了模型的可靠性与有效性。
这项研究已在 2020 年 7 月 15 日发布于国际顶级期刊《Nature》子刊《Nature Communications》。研究成果也已通过网站服务与微信小程序的形式全面开放,相关机构可免费、快速调用。同时,模型代码也在 Github 面向全球开源,以帮助全世界共同战胜新冠疫情。
这项名为《深度学习在新冠肺炎危重患者早期分诊中的应用》(Early Triage of Critically-Ill COVID-19 Patients Using Deep Learning)的研究,是钟南山院士团队与腾讯公司共同成立的大数据及人工智能联合实验室的成果之一,第一作者分别是广州呼吸健康研究院院长助理梁文华博士,以及腾讯 AI Lab 医疗中心首席科学家姚建华博士,钟南山院士、广州呼吸健康研究院院长何建行、腾讯 AI Lab 医疗中心负责人黄俊洲均为共同作者。
在该研究项目中,联合研究团队首先结合 Cox 生存分析算法与 LASSO 算法,对来自全国 575 家医院的 1590 名患者的脱敏入院数据进行了分析建模,并从中确定了 10 项能很好预测重症风险的患者特征,即年龄、是否气促、是否有恶性肿瘤病史、是否有慢性肺阻、合并症数量、是否有 X 光平片异常、血液中性粒细胞与淋巴细胞比例、血液乳酸脱氢酶含量、血液直接胆红素含量、血液肌酸激酶含量。这 10 项特征都是可以通过常规的医学检测手段在合理的时间内有效获取的,因此可用于在早期快速预测患者的重症风险。
训练队列中 10 项所选特征的单因素分析,可以看到年龄是新冠肺炎重症最显著的风险因素之一;事实上超过 60 岁的患者的重症概率明显更高
为了更精确地建模这 10 项特征与重症风险的关系,研究团队采用了最新的深度学习技术来挖掘数据之中的隐含联系,进而计算病人的重症风险系数。具体来说,研究团队采用了基于深度学习的生存分析 Cox 算法对这 10 项指标进行建模。相比于传统经典方法,深度学习的优势是可通过神经网络对特征进行高阶非线性组合,从而更深层次地建立特征与目标函数之间的映射。经过训练,所设计的模型在验证集上的 C-index (即一致性指数(index of concordance),通过评估模型预测结果与实际观察结果的符合程度,以评价模型的预测准确性,值越接近 1,准确率越高)从 0.876(线性模型)提升到了 0.894,AUC (指受试者工作特征曲线下面积,值在 1.0 和 0.5 之间,在 AUC>0.5 的情况下,AUC 越接近于 1,说明诊断效果越好)从 0.889 提升到了 0.911。
此外,使用该模型对另外 1393 例外部检验患者的回溯数据分析也获得了令人满意的预测性能。外部测试集中 106 例发展成重症的患者中,只有 2 例存在数据异常的患者被错误划分到了低风险组。同时,该模型在不同中心的数据上获得的 C-index 均高于 0.85,证明了模型的可靠性与有效性。
不仅如此,研究团队还考虑到了实践中数据不完整的情况,即模型所需的 10 项特征中可能有一部分并未得到测量,原因可能包括接诊医院不具备测试条件或相关医疗资源极度紧张。针对这一问题,研究团队在系统中加入了多变量数据插补模块,其基于可观察到的变量来找到相似的样本作为参考,通过拟合算法来插补缺失的数值。另一方面,为了提升模型的鲁棒性,研究团队还在训练深度模型的过程中采用了随机丢弃数据并添加数据噪音的实践方法。基于这些数据增强策略,最终得到的模型在仅观测到 7 项特征时依然能取得相当好的表现。
当然,一项技术只有得到实际应用才能发挥出真正的价值。研究团队在深度 Cox 模型的基础上又加了一层线性 Cox 模型,以便产生可供医生解读的最终结果。该线性模型会按重要性分别对深度学习模型的预测值与 10 项特征的值赋予不同的权重,然后通过求和得到最终风险系数。该线性模型可以通过诺模图进行手动计算,因其便利性在临床上经常被用来综合各项数值换算最终评估分数。通过诺模图,医生可以很直观地了解各项观察值与风险系数之间的关系,同时也可以在没有电脑的情况下手动计算风险系数。
基于深度学习的生存分析 Cox 算法为一位新冠肺炎患者所得到的诺模图。可以看到该患者的总体诺模图分数为 209**,未来 5**、10、**30 天的总体重症概率分别为 0.58**、0.62、**0.69**,因此该患者被归类为具有较高的重症风险。
为了惠及患者,让一线医生尽快可以在临床研究中使用到相关成果,研究团队快速开发部署了网站服务与微信小程序,使用者只要通过平台提交对应特征的测量数值就可以立马获得分析结果。为了助力全球共同战疫,团队公开了相关论文,并将模型在 Github 开源。
腾讯 AI Lab 与广州呼吸健康研究院联合发布的新冠肺炎重症概率计算工具截图。该工具用法简单,几乎无使用成本,同时也提供了英文版助力全球(尤其是医疗资源紧张的地区)战疫
科技的力量在此次全球抗疫的行动中不断彰显,基于数据分析和人工智能的技术方法更是在疫情预测与防控、风险人群评估、相关药物开发、疫苗研发等应用中发挥了重要作用。腾讯 AI Lab 与广州呼吸健康研究院等多家研究机构与医院联合开发的这套新冠肺炎重症风险预测系统是探索科技战疫的又一成果。可以预期,数据分析和人工智能未来也必将在医疗实践(尤其是对突发疫情的防控)中发挥更大的作用。
腾讯 AI Lab 于 2017 年开始 AI 医疗探索,不断拓展和深化研究与应用,涵盖影像筛查、病理诊断、药物研发多个领域。在研究领域,腾讯 AI Lab 论文多次入选 MICCAI、RSNA 等顶级学术会议,自研算法获得国际级权威测试平台冠军等。在应用领域,腾讯 AI Lab 深度参与并主导推动多项应用落地,包括为腾讯的国家级影像产品「腾讯觅影」与辅诊导诊产品医疗科普平台「腾讯医典」提供了支持,联合合作伙伴研发的中国首款智能显微镜获药监局批准进入临床应用,发布 AI 驱动的药物研发平台「云深智药」等。在国家新基建的背景下,腾讯 AI Lab 发挥大数据挖掘与机器学习等先进技术优势,推动 AI 与医疗产业的深度结合,助力社会整体医疗健康水平提升。
附:
模型代码:https://github.com/cojocchen/covid19_critically_ill
网站服务:https://aihealthcare.tencent.com/COVID19-Triage_en.html
微信小程序: