在以模型为中心的AI开发中,数据集通常是固定的和给定的,重点是迭代模型结构或训练程序以提高性能。这推动了建模方面的大量研究进展,而现在在许多任务中,改进模型的增量收益正在减少。
以数据为中心的AI开发还很少被讨论。以数据为中心的开发强调了需要有系统的方法来评估、综合、清理和注释用于训练和测试AI模型的数据。
2022年8月17日,斯坦福大学计算机科学系的李飞飞等人在Nature Machine Intelligence杂志发表文章,探讨了为可信的人工智能创造数据的进展、挑战和机遇。
主要内容整理如下。
概要
随着人工智能(AI)从研究过渡到部署,创建适当的数据集和数据管道以开发和评估AI模型越来越成为最大的挑战。现在,公开的自动化人工智能模型构建器可以在许多应用中实现顶级性能。相比之下,用于开发人工智能的数据的设计和建模往往依赖于定制的手工工作,它们严重影响了模型的可信度。
本文讨论了数据用于人工智能管道的每个阶段的关键考虑因素--从数据的设计到数据的sculpting(例如,清洗、评估和注释)和数据评估,以使人工智能更加可靠。本文强调了有助于使人工智能数据管道更具可扩展性和严格性的技术进步。此外,还讨论了最近的数据法规和政策如何影响人工智能。
前言
随着人工智能的成熟,人工智能模型的建立正变得越来越容易,比如自动机器学习(AutoML),它可以自动进行模型设计和超参数调整。包括亚马逊、谷歌和微软在内的公司都提供AutoML产品,允许用户在自己的数据上建立最先进的人工智能模型,而无需编写任何代码。
模型建立的日益容易,但由于规划和注释的成本,为人工智能创建数据集仍然是一个主要的痛点。调查报告显示,96%的企业在人工智能项目中遇到了数据挑战,包括数据质量和标记,40%的企业对确保数据质量缺乏信心。数据科学家花在数据加载、清理和可视化上的时间几乎是花在模型训练、选择和部署上的两倍。数据管道也可能非常昂贵,例如,Flatiron Health是一家美国数据公司,雇用临床医生网络来整理癌症患者的医疗记录,被罗氏/基因泰克以超过20亿美元收购。
最先进的人工智能模型经常在开发数据中发现虚假的相关性和偏见。在数据管道的每一步所做的选择会极大地影响在这些数据上训练的人工智能模型的通用性和可靠性,有时比模型的选择更重要。
需要更多地关注开发方法和标准以改善数据用于人工智能的管道。最近的人工智能研究大多集中在提高几个标准基准数据集的模型性能,如ImageNet、CIFAR100、Adult Income、MIMIC等。在这种以模型为中心的开发中,数据集通常是固定的和给定的,重点是迭代模型结构或训练程序以提高基准性能。这推动了建模方面的大量研究进展,而现在在许多任务中,改进模型的增量收益正在减少。同时,正如皮肤病学人工智能的例子所说明的,相对较小的数据改进可以使人工智能模型更加可靠。因此,以数据为中心的观点强调了需要有系统的方法来评估、综合、清理和注释用于训练和测试AI模型的数据。
目前的人工智能研究中往往缺乏以数据为中心的关注点。此外,用于训练或评估人工智能的数据往往很少被讨论。
图1a, 以模型为中心的研究通常认为数据是给定的,并专注于改善模型架构或对这些数据进行优化。以数据为中心的研究专注于可扩展的方法,通过数据清理、选择、注释等系统地改善数据管道,并可能使用一站式(turn-key)的模型构建器。飞机图像表示鸟类数据集中的一个嘈杂的数据点,应该被删除。MNIST、COCO和ImageNet是人工智能研究中常用的数据集。b,浅色和深色肤色图像上的皮肤病诊断测试性能。由于训练数据的错误,在以前使用的大型皮肤学数据上训练的四个最先进的模型表现出很差的性能,特别是在深色皮肤图像上。在较小的更高质量的数据上训练的模型1在各种肤色上都更可靠。c,不同模型的物体识别测试性能与在通过数据Shapley值过滤后的更干净的数据子集上训练的模型(ResNet)相比。括号内的数字代表过滤掉噪声数据后剩下的训练数据点的数量。结果是对五个随机种子的汇总。阴影区域代表95%的置信区间。
在其他学科,如社会科学和生物医学中,数据质量往往更受重视。同时,人工智能对大量异质非结构化数据(例如视频、音频和自由文本)的使用,往往需要昂贵的注释。因此,对新的自动化或human-in-the-loop的方法有巨大的需求,以系统和可扩展的方式改善人工智能数据管道。
接下来,本文探讨了人工智能开发者应该考虑的一些关键问题,以及促进创建人工智能数据管道的技术。本文讨论了反映人工智能数据管道的主要步骤:数据设计(数据的来源和记录),数据sculpting(数据选择、清洗和注释),以及模型测试和监测的数据策略(图2)。
人工智能的数据设计
一旦确定了人工智能的应用,设计数据(即识别和记录数据来源)以开发人工智能模型往往是首先要考虑的问题之一。数据设计对于减少偏见和确保在此数据上训练的人工智能模型的通用性和可靠性至关重要。设计应该是一个反复的过程--拥有试点数据来开发一个最初的人工智能模型,然后收集更多的数据来修补模型的局限性,这往往是有用的。
一个关键的设计标准是确保数据对任务来说是合适的,并且有很好的覆盖面来代表模型在实践中可能遇到的各种用户和场景。目前用于开发人工智能的数据集往往覆盖面有限或有偏差。例如,常用于训练面部识别模型的数据集绝大多数是由浅色皮肤的对象组成的。
提高数据覆盖率的一个有希望的方法是让更多的社区参与到公民科学数据的创建中。比如"Common Voice"项目(https://commonvoice. mozilla.org/)包括来自166,000多名参与者的76种语言的11,192小时的语音转录。
当有代表性的数据难以获得时,合成数据就有可能填补一些覆盖面的空白。真实人脸的收集往往涉及隐私问题和抽样偏差。由深度生成模型创建的合成人脸已经被用来减少数据的不平衡和减少偏见。在医疗保健领域,合成医疗记录可以被共享,以促进知识发现,而不披露实际的病人信息。
图2| 以数据为中心的方法开发路线图,从数据设计到评估。每个方框代表数据管道的一个主要步骤:人工智能的数据设计,人工智能的数据sculpting,以及人工智能的数据评估和监测。每个步骤下都列出了改进数据用于人工智能管道的几个关键方法和考虑。数据策略可以影响到开发值得信赖的人工智能的每一个步骤。
然而,合成数据有重要的注意事项。在合成数据和现实之间总是存在着模拟与现实的差距,所以当把在合成数据上训练的人工智能模型转移到现实世界时,往往会出现性能下降。如果在模拟器设计中没有考虑数字弱势群体,合成数据也会加剧数据差异。
由于人工智能模型的性能高度依赖于其训练和评估数据的背景,因此在标准化和透明的报告中记录数据设计背景非常重要。研究人员已经创建了各种”data nutrition labels”来捕捉关于数据设计和注释过程的元数据。有用的元数据包括对数据集中参与者的性别、民族和地理位置的统计,这有助于浮现代表不足的亚人群的潜在问题。其他元数据包括数据出处,追踪数据的来源和时间,以及数据产生的过程和方法。
通过选择、清理和注解对数据进行sculpting
一旦收集了最初的数据集,就需要大量的工作来雕琢或完善数据,使其对人工智能的发展有效。特别是,与在整个嘈杂的数据集上进行训练相比,仔细选择一个数据子集进行训练可以大幅提高模型的可靠性和通用性。
数据评估可以量化不同数据的重要性,并过滤掉那些由于质量差或有偏见而可能损害模型性能的数据。一类有前途的数据评估方法是测量人工智能模型在训练过程中移除不同数据后的行为变化(图3a)。这可以使用最近的方法,如数据Shapley分数或影响近似值来有效完成。
数据注释往往是一个主要的瓶颈和错误的来源。虽然人工智能模型可以容忍某种程度的随机标签噪音,但有偏见的错误会产生有偏见的模型。目前的注释往往依赖于人类的手工标记,而且费用昂贵。
降低注释成本的一种方法是数据编程。在数据编程中,人工智能开发者不对数据点进行手工标注,而是编写程序化的标注函数来自动标注训练集,通常是基于规则、启发式方法或本体论(图3b)。由于标签是自动标注的,可能会有噪音,因此需要使用额外的算法来聚合多个标注功能以减少噪音。另一种减少注释成本的human-in-the-loop的方法是用主动学习来优先考虑对人类最有价值的数据进行注释。
图3--数据评估、数据编程、数据增强和数据消减的方法说明。a,数据Shapley通过测量如果从训练中删除一个特定的点,在不同的数据子集上训练的模型将如何变化来量化每个数据点的价值。b,数据编程使用用户定义的标签功能,为每个输入自动生成多个潜在的噪声标签,然后在标签之间进行聚合以减少噪声。蓝点表示训练集的现有数据点(蓝色阴影区域)。红点表示通过内插两个现有数据点创建的合成数据点。d,数据消减评估模型是否使用虚假的人工制品(例如,雪的背景)进行预测。
当现有的数据有限时,数据扩增可以成为增强数据集和提高模型可靠性的有效方法。计算机视觉数据可以通过图像旋转、翻转和其他数字转换来增强,而文本数据可以通过自动书写风格的改变来增强。最近的工作提出了更复杂的增强技术,如Mixup,它通过对训练样本的插值来创建新的训练数据(图3c)。
除了手工制作的数据增强,研究人员还探索了人工智能的数据增强管道的自动化。此外,当无标签数据可用时,标签增强可以通过使用初始模型进行预测(这些预测被称为伪标签),然后在具有真实和高置信度的伪标签的组合数据上训练一个潜在的更大的模型。大量的经验性工作表明了数据增强的有效性。
评估和监测人工智能模型的数据
在一个模型被训练后,人工智能评估的目标是评估其通用性和可信度。为了实现这一目标,评估数据应该被精心设计,以捕捉模型可能被使用的现实世界环境,同时与模型的训练数据有足够的不同。例如,在医学研究中,人工智能模型通常在少数医院的数据上进行训练。然而,在新医院部署时,数据收集和处理的变化会降低模型的准确性。为了评估模型的普适性,评估数据应该从不同的医院收集,并采用不同的数据处理管道。
评估的一个重要方面是验证人工智能模型是否使用了基于训练数据中虚假相关性的”捷径”策略,而这些策略可能无法很好地概括。系统性的数据消融是检查潜在模型捷径的一个好方法。在数据消融中,人工智能模型在消融的输入上进行训练和测试,以浮现虚假关联的信号(图3d)。
人工智能的评估往往局限于比较整个测试数据集的综合性能指标(例如AUC)。展望未来,我们建议把重点更多地放在了解模型在细粒度数据子群上的错误模式。即使人工智能模型在总体数据水平上运行良好,它仍然可能在特定的数据子群上表现出系统性的错误,而对这种错误群的描述可以更深入地了解模型的限制。当元数据可用时,细粒度的评估方法应该尽可能地按数据集中参与者的性别、种族和地理位置来划分评估数据。
持续的数据开发带来了几个挑战。
首先,数据和人工智能任务都会随着时间的推移而改变:例如,也许道路上出现了一种新的车辆模型(即领域转移),或者人工智能开发者想要识别一类新的物体(例如,校车与普通公交车不同),这就改变了标签的分类法。扔掉数百万小时的旧标签数据是很浪费的。其次,为了持续获取和使用数据,用户将需要将大部分以数据为中心的人工智能过程自动化。这种自动化包括使用算法来选择哪些数据要发送给注释者,以及如何使用它来重新训练模型,并且只在这个过程出现问题时(例如,当准确率指标下降时)提醒模型开发者。作为”MLOps”趋势的一部分,公司开始使用工具来实现机器学习生命周期的自动化。典型的工具包括开源软件包,如TFX和MLflow。这些软件包包括指定数据预期的功能(例如,类别的粗略分布),并在新数据未能达到这些预期或新模型的评估指标不佳时自动发出警报。
数据监管和政策
政府监管和数据政策将在促进、制约和塑造以数据为中心的可信赖的人工智能方面发挥重要作用。新的数据监管要求支持向我们在这里讨论的各类方法转变。例如,欧洲的人工智能法规草案要求,对于高风险的人工智能系统,"培训、验证和测试数据集应是相关的、有代表性的、无错误的和完整的”。开发者必须对人工智能产品进行”符合性评估"。
一些数据监管要求事实上可能会阻碍开发值得信赖的人工智能。许多人工智能算法,特别是在生物医学科学领域,只使用一个或少数几个站点的数据来开发,这限制了普遍性,对子组性能的评估可能具有挑战性。隐私问题对同意和退出的典型依赖,本身就会造成数据的偏差。公司可以在限制性许可下囤积昂贵的私人数据集,让学术研究人员在互联网上搜寻质量较差且可能有偏见的数据。
人工智能和数据监管将需要平衡隐私和访问利益。一个有希望的方向是专注于数据代理,以减少控制自己的数据的交易成本,并增加数据使用的透明度。通过适当的设计和代理,公众对分享去识别的医疗数据的意愿可以很高。英国生物库,其中有50万名志愿者为科学而分享基因组和健康记录数据,是授予志愿者这种代理权的典型案例,他们对自己的医疗信息保留控制权。
此外,还需要做更多的工作来协调理想的监管目标和具体实施。
讨论
对人工智能数据集的评估仍然是临时性的,并不经常。例如,自2009年以来,ImageNet数据集一直是最受欢迎和最有影响的人工智能基准数据集之一。在2019年才进行的对ImageNet的评估显示,该数据集存在很大的局限性--注释者的偏见很普遍。此外,人工智能大多是围绕静态数据集(如ImageNet)建立的,这些数据集并没有捕捉到模型在部署中所面临的不断变化的数据。持续更新的数据流,以及评估这种数据流的方法,将是人工智能发展的重要新资源。
使数据集的创建、清理和评估更加严格的一种方法是为这些任务中的每一项创建基准。最近发布的”Data-centric AI Benchmarks"是朝着这个方向迈出的一步。以数据为中心的人工智能基准的目标是促进新的可扩展工具的发展,以提高数据质量,使之更容易比较这些工具的一致性。拓展以数据为中心的基准是新研究的一个重要方向。
由于资源限制和更大的数据异质性,这里讨论的以数据为中心的挑战在发展中地区尤为突出。虽然本视角讨论了提高数据质量和多样性的算法,但必须认识到,在数据集创建方面存在着社会技术挑战,需要更广泛的参与来解决。例如,非洲的人工智能研究人员正在开始为他们的当地环境扩展通用的人工智能数据集。这些以数据为中心的努力对于确保人工智能模型的进展能够普及到更多的人群并使其受益至关重要。
参考资料
Liang, W., Tadesse, G.A., Ho, D. et al. Advances, challenges and opportunities in creating data for trustworthy AI. Nat Mach Intell (2022). https://doi.org/10.1038/s42256-022-00516-1
--------- End ---------