2021年12月10日,Nature Medicine杂志发表文章,对医疗人工智能中偏见产生的原因和解决方法进行了分析。
以下是全文内容。
摘要
基于人工智能的模型可能会放大数据集内预先存在的人类偏见,解决这个问题需要从根本上重新调整软件开发的文化。
正文
在基于人工智能(AI)的预测模型中,偏见(定义为不公平的系统性错误)是一个越来越令人担忧的问题,特别是在医疗保健应用中。特别有问题的是,由于错误在一些群体(易受伤害、历史上受到歧视或社会边缘化的群体)中分布不均而造成的不公平现象。
在本期Nature Medicine杂志中,Seyyed-Kalantari及其同事研究了3个大型的、公开可用的放射学数据集,以证明基于人工智能的胸部X光预测模型中的一种特定类型的偏见。他们发现,如果患者属于获得相应医疗服务不足的人群,那么这些模型更有可能错误地预测他们是健康的,即使是使用基于最先进的计算机视觉技术的分类方法。换句话说,他们发现了一种诊断不足的偏见,这在伦理上特别有问题,因为它将错误地把以往服务不足的病人归类为不需要治疗,从而加剧了现有的健康差异。
作者发现,女性患者、20岁以下的患者、黑人患者、西班牙裔患者和有医疗补助保险的患者(他们的社会经济地位通常较低)的诊断率一直偏低。他们指出,尽管在几个临床护理领域已经发现了对服务不足的病人诊断不足的例子,但预测模型可能会放大这种偏见。此外,转向基于自动自然语言处理 (NLP) 的标注,也是已知的对代表不足的人群的偏见,可能会让服务不足的群体的诊断不足。
这项研究揭示了医疗保健中一个重要但相对研究不足的偏见类型,并提出了更大的问题,即这种偏见是如何产生的以及如何将其最小化。
作者提出了几项建议,通过考虑 AI 开发过程中的一些问题来减少诊断不足。例如,他们建议对使用NLP的放射学报告的自动标注进行审核。他们还注意到公平(通过假阴性率(FNR)和假阳性率(FPR)的平等实现公平)和模型性能之间的权衡。然而,在提出"为实现平等而降低模型在某一亚组上的整体性能,在道德上是否可取"的问题时,作者也明确地将这种权衡作为价值观以及技术上的考虑之一。
临床医生的价值观反映在假阴性率和假阳性率的选择上,而不是曲线下面积 (AUC),后者优先考虑对临床决策最有用的预测类型。
对于诊断性测试,AUC是一个单一的指标,例如,在所有的诊断阈值(如"良性"或"肯定是癌症")中,测试将正确排列有病变和无病变的病人的可能性。然而,它是跨阈值的平均数,甚至是那些与临床无关的阈值,并且没有关于相对敏感性和特异性的信息,将它们视为同等重要。在医疗环境中,没有认识到或考虑到病人的情况,为错误的任务优化人工智能模型的危险是非常真实的。对于病人来说,恶性肿瘤的假阳性和假阴性带来的影响是不一样的。人类诊断学家认识到错误分类带来的差异,并"谨慎行事"。然而,不考虑现实世界的影响以及对病人和临床医生的重要性的性能指标将产生误导。此外,必须承认临床医生需要有关因果推断的信息以采取行动,以及数据驱动的模型在提供此类信息方面的局限性。
Epic败血症模型(ESM)的例子强调了在不同发展阶段所做决定的一些影响。该模型是Epic系统的电子健康记录平台中包含的一个工具,可以预测败血症的概率。ESM招致了批评,因为它在一些医疗系统中的表现不佳,其特点是比开发者(Epic Systems)报告的情况"差很多"。然而,开发商既没有评估该产品的实际表现,也没有在发布前对其进行跨人口群体的测试。此外,该模型的专有状态使用户难以独立评估。另一个批评是ESM使用代理变量,如种族和婚姻状况,这种策略具有已知的风险,需要对偏见或混杂进行明确评估。
是什么影响了驱动人工智能设计选择的价值观?Seyyed-Kalantari等人的工作揭示了医疗环境知识在理解人工智能驱动的决策中的重要性。关键是对医疗实践的已知偏见的认识。然而,这种理解的潜力可能是有限的,因为开发医疗保健人工智能的主要参与者越来越多地来自科技公司,而这些公司缺乏医疗保健专业知识的关键职位。具有医学、数据科学和工程背景的人之间的合作对于医疗人工智能的发展至关重要,可以将具有不同专业职责和价值体系的人聚在一起。
因此,医疗和研究、计算机科学和软件工程的专业规范的影响也在不断变化。鉴于在标准方面缺乏共识,也没有一个明确的监管框架来指导或强制评估安全性和有效性,在医疗保健人工智能中发展起来的开发者文化,包括其价值观、规范和实践,将变得尤为重要。人工智能开发者能否应对挑战,确保人工智能开发中的公平和公正,并实施Seyyed-Kalantari等人的建议(如对部署的算法进行强有力的审查)?医疗和研究的专业规范将如何与计算机科学和软件工程的专业规范互动?人工智能开发团队是否包括对相关临床领域有深入和具体了解的人?对人工智能开发者来说,有什么激励措施可以让他们在报告AUC之外,在选择性能指标时考虑到临床因素或进行公平性检查?
致力于解决基于人工智能的模型对服务不足人群的诊断不足问题,并采纳Seyyed-Kalantari等人的建议,需要的不仅仅是技术解决方案和对开发和评估过程的修改。
首先,我们必须承认,偏见并不只是一个可以消除的数据特征,它是由更深层次的社会和组织力量所定义和形成的。例如,使用社会构建和政府规定的类别,如"西班牙裔"和"亚裔"进行数据分类,已知会掩盖许多重要的健康差异,然后使用这些类别的人工智能模型会使这些差异永久化。有必要从根本上重新调整医疗应用软件开发的专业规范,承认开发者对病人健康和福利的责任。速度、效率和成本控制的价值决不能优先于透明、公平和有益的价值。
此外,识别导致数据和人工智能建模过程中的不公平和不公正的社会和组织因素,以及广泛采用纠正这些因素的规范和实践,对于解决偏见同样重要。
参考资料
Cho, M.K. Rising to the challenge of bias in health care AI. Nat Med (2021). https://doi-org.xjpgl.80599.net/10.1038/s41591-021-01577-2