大数据文摘出品
作者:刘俊寰
新冠疫情之下,不少国家和地区的医生往往处于超负荷的工作状态。
随着近年来AI技术的发展,医疗AI在疫情中发挥了越来越重要的作用,不少AI病毒检测系统研发者都表示,相关产品实验室准确率都已经达到了96%及以上。
那么,在医院真实使用的时候,这些系统真的能让医生护士们“如虎添翼”吗?
让我们先把目光聚焦于对既有疾病的诊断和治疗上。
比如去年,谷歌落地泰国的眼疾检测人工智能明星产品。
谷歌此前曾高调宣布,正式与泰国公共卫生部建立合作关系,在帕图姆和清迈落地了一个用AI检测糖尿病性视网膜病变的系统。
作为FDA批准的首款人工智能诊断设备,谷歌和泰国双方都表示了极高的期待。
但是,根据谷歌最近发表的相关报告,该系统在泰国表现出强烈的“水土不服”:在部署系统的11家诊所中,只有2家具有满足条件的影像室,而由于医院的光线环境经常不利于拍摄,超过五分之一的图像都会被系统拒绝;同时,必须将照片上传到云端进行处理才能获取结果,而泰国多数诊所的网络连接不够理想,有护士和患者因此等待了两个多小时。
医疗AI落地任重道远,一起来看看谷歌AI这起泰国“翻车”故事。
当高精准AI遭遇“人挤人的小诊所”:理想有多丰满,现实就有多骨感
这款产品会首先落地泰国事实上意义重大。
根据2016年的一项调查显示,泰国共有9.6%人民患有糖尿病性视网膜病变,34%的患者会因为此双眼视力明显低下甚至失明。而在世界范围内,约5%的失明患者都是因为身患糖尿病性视网膜病变导致。
2013年,泰国公共卫生部宣布,泰国居民可在指定的检查日到当地诊所进行糖尿病性视网膜病变的检测,最初公共卫生部预计的目标是覆盖每个地区60%的患者。然而数据显示,即使这样,每年接受检测的患者数也不到50%。
在传统的检测过程中,护士会为患者拍摄一张“眼底照片”(fundus photo),这些照片随后通过电子邮件或邮寄光盘发送给眼科医生,而更进一步的眼部检查至少也要在4-5周后进行。
谷歌的这款医疗AI在落地之前也做了完备的准备:通过一个12.8万幅图片的数据集训练建立起来,每张图片记录了3-7名眼科医师的评估结果,为了验证算法的性能,他们还使用了2个独立的临床试验数据集,包括1.2万幅图片,审核结果由专家来判决。
在构想中,该AI系统能在几秒钟内给出可堪比眼科医生的具有专业价值的结论,在内部测试中,系统也以90%的准确度获得了高度认可。在这种情况下,护士就能在几分钟内给出初步建议,大大缩短了时间差。
可以说,这个系统在泰国的落地具有划时代的意义。
泰国卫生部门对于这一产品抱着极高的期待,但是,根据相关反馈,该系统在泰国“拥挤的诊所”表现完全不及格。
谷歌发布相关产品落地反馈报告链接:
https://dl.acm.org/doi/abs/10.1145/3313831.3376718
当然,这不完全是谷歌产品本身的问题。
泰国当地表示,这款AI测试产品也有正常工作的时候,的确大大提升了检测效率;但是更多的时候,系统无法给出一个明确的结果。
这也是多方面因素导致的。首先,和大多数的图像识别系统一样,深度学习模型的训练环境是基于高质量的扫描图像,对于低于一定质量阈值的图像,系统会自动拒绝。
但在现实中,护士一小时要面对几十名患者,医院的光线环境经常不利于拍摄,超过五分之一的图像都会被系统拒绝。
而这些被系统“拒绝”的患者不得不再另选时间前往另一个诊所让人类专家诊断,不少人往往难以请到两天连休,或者没有更便利的交通工具,这些都将导致该系统进入当地医疗系统后被人们排斥。
对此,护士也时常感到沮丧,尤其是当她们拍摄的照片被系统拒绝,或者被认定为没有疾病特征的时候。而为了达到系统要求的精度,她们有时会花费很多时间在一张照片上。
其次,就算护士们费尽力气拍摄了满足系统要求的眼球照片,她们还必须将必须将照片上传到云端进行处理,其中诊所的网络连接就是另一个影响因子。
“患者往往习惯于马上看到结果,但由于网速问题,患者不得不等待很长时间,他们就会抱怨,”一位护士说,“有人从早上6点开始就在这里排队了,但我们这2个小时只检测了10个病人”。
在评价该AI系统的不成熟和局部应用时,研究团队表示:本次在引进新技术时,规划者、政策制定者和技术设计者都没有考虑到复杂的医疗项目在落地过程中会出现的问题,但其实人们的动机、价值观、职业身份以及他们工作的现行规范和常规等社会因素,都是至关重要的。
谷歌健康团队的研究人员Emma Beede更是一针见血地指出:“在广泛部署AI工具之前,必须首先了解AI如何在特定环境中为人们服务,在医疗保健领域尤其如此。”
针对种种问题,谷歌健康团队正在与当地医务人员合作,重新设计工作流程。例如,让护士接受培训,让她们在极端情况(borderline cases)中相信自己的判断,同时模型本身也将进行再次调整,以更好地处理不完美的图像。
FDA批准的首款人工智能诊断设备,实验室准确率高达90%
谷歌这款人工智能眼疾诊断产品算是全球医疗AI领域的明星产品。
2018年4月,在美国食品和药物管理局(FDA)首次批准了这种人工智能诊断设备,并且罕见宣布,该设备不需要专家医生来解释结果。
这也就意味着,这个名为IDx-DR的软件程序可以通过观察视网膜的照片来判断患者是否有眼科疾病,某些情况下甚至不需要配备人类医生的进一步诊疗。
它的工作原理是这样的:护士或医生上传病人视网膜的照片,这些照片是用专门的视网膜摄像机拍摄的。
IDx-DR软件首先判断照片的清晰度是否支持下一步的疾病判断。
然后,对这些合格图像进行分析,以确定病人是否患有糖尿病性视网膜病变。糖尿病性视网膜病变是糖尿病性微血管病变中最重要的表现,是一种具有特异性改变的眼底病变,是糖尿病的严重并发证之一。
在一项使用超过900张图像的临床试验中,IDx-DR正确检测到糖尿病性视网膜病变的准确率为87%,正确识别无病患者的准确率为90%,准确度可以媲美专业医师。
据了解,这也是机器学习被首次应用于医疗AI系统的案例。当时可谓轰动一时的消息,文摘菌也曾就这一研究成果做过报道。
科技公司翻车不止谷歌一家,AI落地医疗行业前路崎岖
医疗AI在落地过程中,除了谷歌本次暴露出来的问题,似乎还有更多的问题有待解决。
比如去年8月,在苹果秋季发布会前夕,苹果健康团队被曝出内部存在极大的管理问题,直接导致员工扎堆离职。在医疗健康这条路上,苹果高层倾向于采取安全渐进的方法,这与医疗行业本身的复杂程度有一定的关系。
但是苹果健康团队内部不少员工却不这么认为,他们急于解决医疗系统中最“棘手”的问题,比如医疗设备、远程医疗和医疗支付等。有员工透露道,苹果完全有能力开发更多更有前景的项目,在医疗健康这条路上走得更远,但是,公司主打的仍是“手表心电图”这类面向广大健康用户的功能。
除此之外,两名知情人士表示,对于该公司应在多大程度上向医疗行业透明化,内部也存在分歧。苹果此前一直对自己的项目高度保密。然而,这种严格保密在使得苹果在卫生保健领域发展更具挑战性,因为该行业通常需要依靠已发表的研究、临床研究,并与行业内组织保持公开对话。
监管机构与科技公司的角逐也影响到了医疗AI的落地。去年4月,IEEE Spectrum发布特别报告《How IBM Watson Overpromised and Underdelivered on AI Health Care》,在文中细数了IBM的明星医疗部门Watson Health是如何走向衰落的。
文中称,尽管IBM花费数十亿美元收购AI企业,加强内部开发实力,但内部人士表示,被收购公司并没有发挥什么作用。这其中还存在监管机构的干预,监管机构只批准少数基于AI的工具在医院和医生的办公室使用,这些开创性产品主要聚集在图像诊断领域,比如通过计算机视觉技术识别X射线和视网膜扫描图像进行诊断,而IBM却没有医学图像识别的产品落地。
除了管理问题,医学领域本身也存在极大的挑战,比如为医生的专业知识编码,这项浩大的工程即使是如今最优秀的AI也难称可以实现。
正如在2014年离职IBM的Kohn所说,“拥有强大的技术是不够的,你还要向我证明,这款产品的确是有价值的,可以让我生活的更好,让我的父母生活的更好”。这也清楚地指出了科技公司在医疗领域的崎岖前路。
面对如此多的难关,科技公司将如何逐一攻破,我们期待着医疗AI能在实际环境下更有效地工作的一天。