医生还未失业，IBM Watson 已跌入深渊

译者 | Major

编辑 | 琥珀

出品 | AI 科技大本营（公众号ID：rgznai100）

导语：2011 年，Jeopardy! 挑战赛的成功，让外界看到 IBM 的人工智能给医学带来的革命性改变。不过，医生们对此却持观望状态。

2014 年，IBM 为其人工智能事业部 IBM Watson 新成立了总部。在曼哈顿下城的玻璃塔楼内，IBM 员工可以将潜在客户和来访的记者带到类似于微型天文馆的“沉浸室”。

一个黑暗的空间里，参观者坐在旋转的凳子上，华丽的图形围绕着覆盖在墙上的弧形屏幕闪烁。按 IBM 员工的说法，这是最接近 Waston 电子大脑的地方。

这一年，Watson 的一次令人眼花缭乱的创意演示，展示了其利用人工智能改造医学的潜力——IBM 首席执行官维吉尼亚 · 罗梅蒂（Virginia Rometty）经常称之为该公司的“登月计划”。

在演示中，Watson 收集了一组奇怪的患者症状，并列出了可能的诊断列表，每个列表都附 Watson 对诊断的置信度以及相关支持医学文献的链接。

Watson 从来都让人印象深刻：它的记忆库保存着每一种罕见疾病的知识，它的处理器不易受到那种会让医生失望的认知偏见的影响。它可以在几秒钟内处理一个棘手的病案。

如果 Watson 能够将这种即时的专业知识带给世界各地的医院和诊所，人工智能似乎有可能减少诊断错误，优化治疗，甚至帮助医生更快更好地完成工作，而不是取代他们来缓解医疗短缺。

肿瘤专家顾问 MD 安德森癌症中心与 IBM Watson 合作，为肿瘤学家创建了一个咨询工具。该工具使用自然语言处理（NLP）来汇总患者的电子健康记录，然后搜索数据库以提供治疗建议。医生们在白血病科试用了一个原型，但是安德森癌症中心在 2016 年花了 6200 万美元之后，取消了这个项目。

然而，在公司总部之外，IBM 发现其强大的技术无法与当今医疗系统的混乱现实相匹配。在尝试将 Watson 应用于癌症治疗这一最大的医学挑战中，IBM 遇到了机器学习和医生工作方式根本不匹配的问题。

IBM 改革医疗行业的勇敢尝试始于 2011 年。Watson 在 Jeopardy! 比赛中彻底击败了两位人类冠军后的第二天，IBM 宣布了其 AI 智力竞赛节目赢家 Watson 的新职业目标：它将成为一名 AI 医生。

IBM 将主要利用它在电视上展示突破性技术，即理解自然语言并将其应用于医学的能力。Watson 当时承诺将在 18~24 个月内推出第一批医疗保健商业化产品。

事实上，IBM 当天宣布的的项目并没有开发出商业化产品。在此后的 8 年中，IBM 大肆宣扬了许多更引人注目的努力，以开发人工智能为动力的医疗技术，其中许多已经失败，其中一些已经失败得非常惊人。

该公司花费数十亿美元进行收购，以支持其内部努力，但内部人士表示，被收购的公司尚未做出多大贡献。IBM Watson 医疗事业部推出的产品与曾经设想的出色的 AI 医生完全不同，它们更像是能够执行某些常规任务的 AI 助理。

“我认为他们在声誉上遇到了麻烦，”旧金山加利福尼亚大学医学系主任 Robert Wachter 说，他是 2015《数字医生》一书的作者。他说，在某种程度上，IBM 正遭受其雄心壮志的折磨：它是第一家大力推动人工智能进入医院的公司。

但它也因夸耀 Waston 的能力而遭遇了恶意和怀疑。他说：“他们首先参与市场营销，其次是产品营销，这让每个人都很兴奋。然后一切就变样了。这是一组非常困难的问题，而 IBM 作为先行者，已经向其他人证明了这一点。”

2011 年以来，IBM 发布了一系列智能医疗项目。它们的成绩如何？

目前为止，很少有成功的项目。

在 2017 年的一次健康 IT 专业人士会议上，IBM 首席执行官 Rometty 告诉听众说，人工智能“是真实的，是主流，它在这里，它可以改变几乎所有关于医疗的事情”，并补充说，它可能会迎来一个医学“黄金时代”。

她并不是唯一一个看到机会的人：计算机科学家和医学专家都同意 AI 有潜力改变医疗保健行业。然而，到目前为止，这种潜能主要是在精心控制的实验中得到证明的。只有少数基于人工智能的工具被监管机构批准用于真正的医院和医生办公室。

这些开创性的产品主要在视觉领域工作，使用计算机视觉来分析像 X 光和视网膜扫描这样的图像（不过，IBM 没有分析医学图像的产品，尽管它在该领域有一个活跃的研究项目）。

然而，除了图像，即使是当今最好的人工智能也难以理解复杂的医疗信息。对一位人类医生在软件方面的专业知识进行编码是一个非常棘手的问题。

正如全世界所看到的那样，IBM 在市场上经受了这些痛苦的教训。虽然该公司不会放弃登月计划，但其研发的失败表明，技术人员和医生都很难真正创建一位 AI 医生。

2011 年的 Jeopardy! 竞赛的胜利表明了沃森在自然语言处理（NLP）方面的非凡技能。要赢得这个比赛，它必须通过大量文字解析复杂线索，搜索大量的文本数据库以检索可能的答案，并确定最佳答案。

Watson 不是一个简单的搜索引擎；它不仅仅是基于关键字返回文档。相反，它使用了数百种算法来映射一个句子中的“实体”，并理解它们之间的关系。它使用这种技巧来理解线索和挖掘数以百万计的文本源。

认知教练系统 Under Armour 运动服装公司与 Watson Health 合作，创建了一个 “个人健康教练和健康顾问” 应用。认知教练使用 Under Armour 的活动跟踪 APP 中的数据，根据用户的习惯提供定制的培训计划，以及基于对类似结果分析的建议。这个系统从未真正推出，而且 Under Armour 也不再与 IBM Watson 合作。

“Watson 几乎可以理解语言的含义，而不仅仅是识别单词的模式，” Jeopardy! 竞赛时的 IBM 研究部首席医学科学家 Martin Kohn 说。

“这比现有系统能力有指数级增强。”更重要的是，Watson 通过机器学习自己发展了这种能力。

IBM 的研究人员通过给 Watson 提供数千条被标为正确或不正确的 Jeopardy! 线索和响应来训练他。在这个复杂的数据集中，AI 发现了模式，并为如何从输入（线索）到输出（正确的响应）建立了模型。

早在 Watson 在 Jeopardy! 舞台闪亮登场很久之前，IBM 就考虑过其应用在医疗行业的可能性。医学上拥有大量患者数据似乎对 AI 明显适合，尤其是当医院和医生转向电子医疗记录时。

虽然有些数据可以很容易地被机器上传，如实验室结果和生命体征测量，但大部分医疗数据是 “非结构化” 的信息，如医生撰写的病历和出院总结。这种叙述性的文本占了一个典型病人记录的 80% 左右，它是一堆行话、速记和主观陈述。

Kohn 在加入 IBM 之前曾获得哈佛大学医学学位和麻省理工学院工程学位，他很高兴能帮助 Watson 解决医学语言的问题。

他说：“Watson 似乎有潜力克服这些复杂性。”他表示，通过将 IBM 强大的 NLP 能力应用到医学领域，Watson 可以阅读患者的健康记录以及完整的医学文献集：教科书、同行评议的期刊文章、经过批准的药物清单等。有了这些数据，沃森可能会成为一名超级医生，识别出人类无法识别的模式。

Columbia 大学医学和生物医学信息学教授 Herbert Chase 说：“医生们每天都要去工作，尤其是前线工作的人们，初级保健医生们知道他们不可能知道一切，因此需要尽可能地实践最好、最充分、最有效的医学。”

他与 IBM 合作开展了首次 AI 医疗保健工作。如果 Watson 变成一个 “临床决策支持” 的工具，它也可以使医生获得这些知识。根据 Jeopardy! 线索，医生可以给 Watson 一个病人的病史，并要求 Watson 作出诊断或最佳治疗方案。

Chase 与 IBM 的研究人员合作开发了一种诊断工具的原型，这种工具让 Watson 体验厅室里的访客眼花缭乱。但 IBM 选择不将其商业化，Chase 在 2014 年与 IBM 分道扬镳。他对 Watson 在医学上的缓慢进步感到失望。“我预想不出会有什么精彩的结果，”他说。

他是 Watson 早期众多狂热分子中的一员，现在他们都很沮丧。马里兰大学放射学教授、信息系统副主席 Eliot Siegel 也与 IBM 合作进行诊断研究。

虽然他认为 AI 工具在十年内对医生来说是必不可少的，但他不相信 IBM 会开发出这些工具。西格尔说：“我认为他们不处在 AI 的前沿。”“最令人兴奋的事情发生在谷歌、苹果和亚马逊。”

至于 Kohn，他在 2014 年离开 IBM，他说公司陷入了一个常见的陷阱：“仅仅证明你拥有强大的技术是不够的，”他说。

科恩说，他一直在等待医学期刊上发表同行评议的论文，证明 AI 可以改善患者的治疗效果并节省医疗系统的资金。他说：“到目前为止，此类论文还很少发表，对 Watson 来说也没有什么影响。”

表1：人工智能首次进军医疗保健领域

医生是一个保守的群体（这有充分的理由），而且采用新技术的速度很慢。但在医疗保健的某些领域，医学专业人士开始认为人工智能系统是可靠和有用的。表 1 是 AI 医学的一些早期进展。

为了把人工智能带进诊所，IBM 面临着巨大的技术挑战。但 IBM 在很多计算领域落后于像谷歌和苹果这样的技术巨头，所以它需要一些大项目来保持自己的位置。

2014 年，Watson 投资 10 亿美元，为多个业务部门开发技术。2015 年，IBM 宣布成立一个特殊的 Watson Health 事业部。

到 2016 年年中，这个事业部已经以大约 40 亿美元的总成本收购了四家健康数据公司。IBM 似乎拥有使 AI 在医疗保健行业中发挥作用所必需的技术、资源和责任。

今天，IBM 的领导们把 Watson Health 说成是一个曲折的 “旅程”。“将 AI“注入” 医疗保健是一项艰巨的任务，这是一项挑战。但我们正在这样做，”IBM 认知解决方案和研究部高级副总裁 John E.Kelly III 说。

Kelly 从 Jeopardy! 竞赛开始就一直在指导 Watson 的工作，在 2018 年底，他还承担了 Watson Health 的直接管理。他说，公司已经在需要的时候转变了方向：“我们在不断学习，所以我们的产品会随着学习而改变。

Sugar.IQ Medtronic 公司和 Wtson Health2015 年开始合作开发个性化糖尿病管理应用程序。该 APP 与 Medtronic 公司的连续血糖监测仪的数据一起工作，帮助糖尿病患者跟踪他们的药物、食物和生活方式，选择如何影响他们的血糖水平。FDA 于 2018 年批准相关申请。

IBM 负责医疗保健和生命科学研究的副总裁 Ajay Royyuru 说，这种诊断工具之所以没有上市，是因为没有商业案例。

他说：“诊断不是一个好去处。专家们做得很好。这是一项艰巨的任务，不管人工智能做得有多好，它都不会取代专家实践者。”当然，并不是说所有人都持这样的看法。

在 2015 年国家科学、工程和医学院关于诊断错误的报告指出，改进诊断代表着“道德、专业和公共卫生的迫切需要”。

为了寻找医疗 AI 的商业案例，IBM 针对医疗保健系统中的所有不同参与者（医生、管理人员、保险公司和患者）开展了数量惊人的项目。

Kelly 说，将所有的线索联系在一起的，是努力 “使用 AI（分析）海量数据集的决策支持”。IBM 最广为人知的项目集中在肿瘤学上，该项目希望利用 Watson 的“认知” 能力，将大数据转化为针对患者的个性化癌症治疗。

在许多尝试中，Watson 的 NLP 和其他许多 AI 系统一样难以理解医学文本。蒙特利尔大学计算机科学教授、AI 顶尖研究人员 Yoshua Bengio 说：“我们在使用 NLP 方面做得比五年前好得多，但我们仍然比人类差得多。”

Bengio 说，在医学文本文档中，人工智能系统无法理解歧义，也无法找到人类医生会注意到的细微线索。

Bengio 说，目前的 NLP 技术可以帮助医疗保健系统：“它不需要有充分的理解，就可以做一些非常有用的事情，”他说。但迄今为止，人工智能尚无法与人类医生的理解力和洞察力相匹配。

IBM 在癌症方面的工作就是一个很好的例子。“我认为没有人知道这会花费这久的时间或这么复杂，”Mark Kris 说。

他是纽约市 Memorial Sloan Kettering 医疗中心的肺癌专家，自 2012 年以来一直领导着他的研究机构与 IBM Watson 的合作。

改善癌症护理有两条主要途径。2015 年，Mark Kris 和其他杰出医生训练了一个人工智能系统 Watson for Oncology 。

在全美国范围内，位于休斯顿的德克萨斯大学 MD Anderson 癌症中心的杰出医师与 IBM 合作，创建了一种称为肿瘤学专家顾问的工具。MD Anderson 在白血病科做了这么多的测试，但从未成为商业产品。

这两项努力都受到了强烈的批评。一篇关于 Watson for Oncology 的文章批评称，它提供了无用的、有时是危险的建议（IBM 对这些指责有异议）。

更广泛地说，Kris 说，他经常听到批评的产品不是 “真正的人工智能”。而 MD Anderson 项目却戏剧性地失败了：德克萨斯大学 2016 年的一次审计发现，癌症中心在取消该项目之前在该项目上花费了 6200 万美元。

对这两个项目的深入研究表明，机器学习的前景与医疗保健的现实之间存在着根本的不匹配，即“真正的人工智能” 与当今医生对功能性产品的需求之间存在着根本的不匹配。

Watson 在肿瘤科的研究应该是通过吸收大量关于癌症的医学文献和真实癌症患者的健康记录来学习的。

IBM 希望 Watson 能够凭借强大的计算能力，研究这些记录中的数百个变量，包括人口统计学、肿瘤特征、治疗和结果，并发现人类看不到的模式。它还跟踪每天发表的大量关于癌症治疗的期刊文章。

对于 Sloan Kettering 的肿瘤学家来说，这听起来像是癌症治疗方面的一个潜在突破。对 IBM 来说，这听起来是一个很棒的产品。“我想没人知道我们是为了什么，”Kris 表示。

Watson 很快学会了如何浏览有关临床研究的文章并确定基本结果。但事实证明，教 Watson 像医生那样阅读文章是不可能的。

Kris 说：“医生从一篇文章中提取信息，用来改变其治疗，但这可能不是 Watson 研究的重点。”Kris 解释说，Watson 的想法是基于统计数据的，所以它所能做的就是收集关于主要结果的统计数据。但医生不会那样做的。”

例如，在 2018 年，FDA 批准了一种新的 “组织不确定” 类抗癌药物，这种药物对所有表现出特定基因突变的肿瘤都有效。根据仅 55 名患者的显著结果，该药物被快速追踪，其中 4 名患者患有肺癌。

Kris 说：“我们现在认为，每个肺癌患者都应该检测这种基因。基于这 4 位患者，之前所有的指引都被剔推翻了。”但 Watson 不会仅仅基于 4 个病人而改变其结论。

为了解决这个问题，Sloan Kettering 的专家们创建了“综合案例”，Watson 可以从中学习到，本质上是让具有一定人口统计学特征和癌症特征的患者相信。“我相信分析，我相信它可以揭露一些问题，”Kris 说。“但说到癌症，它真的不起作用。”

你是否同意？

几项研究比较了 Watson 对肿瘤治疗的建议和医院肿瘤医生的建议。两者的一致性百分比指出了 Watson 的建议与专家的治疗计划相符的频率。

信息来源：Journal of Clinical Oncology 2017; Cancer Research 2017; JCO Clinical Cancer Informatics 2018

认识到 Watson 无法独立地从医学文献中的突发新闻中提取见解，这只是遇到的第一个问题。研究人员还发现，它不能像预期的那样从患者的电子健康记录中挖掘信息。

在 MD Adnderson 中心，研究人员让 Watson 研究白血病患者的健康记录，并很快发现这些记录是多么难以处理。

是的，Watson 有惊人的 NLP 技能。但在这些记录中，数据可能会丢失、以不明确的方式写下或不按时间顺序排列。

在《The Oncologist》一篇 2018 年发表的论文中，研究小组报告说，其基于 Watson 的肿瘤专家顾问在从病历文本文件中提取信息方面取得了不同的成功。

在处理明确的概念（如诊断）时，它的准确率为 90%~96%，但对于时间依赖性信息（如疗程）的准确率仅为 63%~65%。

在对 IBM 的 AI 超级医生梦想的最终打击中，研究人员意识到 Watson 无法将一个新病人与以前发现隐藏模式的癌症病人进行比较。

Sloan Kettering 和 MD Anderson 都希望 AI 能够模仿他们的肿瘤专家的能力，这些专家在为新病人设计策略时，利用自己对病人、治疗和结果的经验。一台可以更严格地进行相同类型人群分析的机器，并且利用更多的患者信息，将是非常强大的。

但是医疗系统的现行标准并不鼓励这种现实世界的学习。MD Anderson 的肿瘤专指引只发布了与官方医学指南和医学文献中发表的研究结果相关的 “基于证据” 的建议。

例如，如果一个 AI 系统给出的建议是建立在其医疗记录的基础上，如某种药物对某种类型的病人很有效果，那么它的建议就不会被认为是 “基于证据” 的（这是医学上的黄金标准）。如果没有科学研究的严格控制，这样的发现只会被认为是相关性，而不是因果关系。

IBM 前员工 Kohn 和其他许多人认为，为了使 AI 充分发挥其潜力并转变医学，医疗保健的标准必须改变。Kohn 说：“黄金标准并不是真正的黄金。”

Kohn 说，AI 系统可以考虑比临床试验更多的因素，并且可以将患者分为更多的类别，以提供“真正的个性化护理”。

基础设施也必须改变：医疗机构必须同意共享其专有控制的隐私数据，以便 AI 系统可以从多年来接收的数百万患者身上进行学习。

据报道，IBM 在美国很难找到 Watson 肿瘤产品的买家。一些肿瘤学家说他们相信自己的判断，不需要 Watson 告诉他们该怎么做。

另一些人说，Watson 只建议标准的治疗，他们对此很清楚。但 Kris 说，一些医生发现这是一个有用的第二种建议，他们可以与紧张的病人分享。

Kris 说：“尽管它不完美，而且有限，但它是非常有帮助的。”IBM 的销售代表在美国以外的地方更幸运，印度、韩国、泰国等地的医院都采用了这种技术。

这些医院中的许多在营销中自豪地使用 IBM Watson，告诉患者他们将获得基于 AI 的癌症治疗。

在过去的几年里，这些医院已经开始发表他们与 Watson 在肿瘤方面的经验研究。在印度，曼尼帕尔综合癌症中心的医生对 638 例乳腺癌病例进行了评估，发现治疗建议的一致率为 73%；

其评分因转移性乳腺癌表现不佳而降低。在韩国的加川大学吉尔医疗中心，Watson 的情况更糟，该中心 Watson 对 656 名结肠癌患者的最佳建议与专家的建议只有 49% 匹配。

医生们报告说，Watson 在老年患者身上表现不佳，没有推荐某些标准药物，而且有一个缺陷，导致 Watson 建议对某些癌症转移患者进行观察而不是积极治疗。

这些研究旨在确定 Watson 在肿瘤学技术方面的表现是否如预期。但还没有研究表明它对患者有益。UCSF 的 Wachter 说，这对公司来说是一个日益严重的问题：“IBM 知道，Jeopardy! 竞赛的胜利以及与 Memorial Sloan Kettering 的合作使他们跨入智能医疗的门槛。

但它们需要相当快地给出坚实的影响力。”Wachter 说，IBM 必须说服医院，该系统值得价值投资。

他说：“他们取得成功是非常重要的…… 成功是类似发表在 New England Journal of Medicine 的一篇文章，展示了'当我们使用 Watson 时，病人情况更好，或者我们节省了钱'等等。”Wachter 仍在等待看到这样的文章出现。

Sloan Kettering 的 Kris 并没有气馁，他说技术只会变得更好。“作为一种工具，Watson 有着非凡的潜力，”他说，“我确实希望那些拥有创意和计算机能力的人能够坚持下去。这是一个漫长的过程，但值得坚持。”

Watson 在某些有限和受控的应用上，取得了一定成功，其中，Watson 似乎起到了增值作用。

以 Watson for Genomics 产品为例，它是 Watson 与北卡罗来纳大学、耶鲁大学和其他机构合作开发的基因组学产品。

这个工具被遗传学实验室用来为实践肿瘤学家生成报告：Watson 接收列出病人基因突变的文件，几分钟后它就可以生成一份描述所有相关药物和临床试验的报告。

“我们使实验室能够扩大规模，”领导产品开发和 2016 年产品发布的 IBM 杰出工程师 Vanessa Michelini 说。

Watson 在处理基因信息时相对成功，这些信息存储在结构化的文件中，没有歧义，无论是有无突变。该工具不使用 NLP 来挖掘医疗记录，而只使用它来搜索教科书、期刊文章、药品批准和临床试验公告，并在其中查找非常具体的声明。

IBM 在北卡罗来纳大学的合作伙伴在 2017 年发表了第一篇关于 Watson 对基因组学有效性的论文。

在参加这项研究的 32% 癌症患者中，Watson 发现了人类研究中没有发现的潜在重要突变，这使得这些患者成为新药或刚刚开放的临床试验的候选者。但到目前为止，还没有迹象表明 Watson 的基因组学研究能带来更好的结果。

弗吉尼亚州国家肿瘤项目主任 Michael Kelley 说，美国退伍军人事务部使用 Watson 在全国 70 多家医院做基因组学报告。

弗吉尼亚州首次尝试了肺癌治疗系统，现在使用它治疗所有实体肿瘤。Kelley 说：“我确实认为它能改善病人的护理。”

当弗吉尼亚州的肿瘤学家决定一个治疗方案时，“Watson 是他们可以带来讨论的信息来源，”他说。但凯利说他不认为沃森是个机器人医生。“我倾向于认为它是一个机器人，一个医学图书管理员。”

大多数医生可能会很高兴有一个 AI 图书馆员随时待命，如果这是 IBM 最初承诺的，他们今天可能不会那么失望。

Watson 现在成为一个被指责傲慢和炒作的故事。每个人都喜欢雄心壮志，每个人都喜欢登月，但没有人想登上一个不起作用的火箭。

表 2：到目前为止，几乎没什么成功的案例

2011 年，IBM 开始努力将 Watson 纳入医疗保健行业。从那时起，该公司已经宣布了近 50 个合作伙伴，开发新的人工智能医疗工具。

一些合作为医生和机构开发工具；

一些合作提供消费者 APP 开发工具。

虽然这些合作中的许多项目还没有开发出商业产品，但 IBM 表示，这些研究工作是有价值的，而且许多关系还在继续。

链接：

https://spectrum.ieee.org/biomedical/diagnostics/how-ibm-watson-overpromised-and-underdelivered-on-ai-health-care

（本文发表在 IEEE Spectrum 20194 月刊印刷版，题为“IBM Watson, Heal Thyself.”）

人工智能医疗

0 人点赞