引言
人工智能对气候的影响,特别是NLP研究,已经成为一个严重的问题,因为人们越来越重视高效的自然语言处理,这导致了大量的能源正越来越多地用于训练和运行计算模型。且有研究表明训练一个BERT基础模型所需的能量相当于一次跨美洲飞行。为此,「本文提出了一个气候性能模型卡,其主要目的是在实验和底层计算机硬件的有限信息下实际可用,从而为更深入的讨论抛砖引玉。这可以让NLP研究人员提高对环境影响的意识,因为价值观不一定决定行为,意识只是实现该目标的第一步」。
EMNLP2022第五波已更新,下载方式回复:历年EMNLP
背景介绍
随着人工智能(AI),特别是自然语言处理(NLP)的规模不断扩大,它需要更多的计算资源,同时也就意味着需要更多的能量,人们越来越关注效率和可持续性。虽然较新的模型效率更高,但它们也大了一个数量级,进而也会引发了环境问题。这个问题只会随着时间的推移而恶化,因为计算需求每10个月就会翻一番。
这个问题已经被NLP社区所认识到,一组NLP研究人员最近提出了一份关于高效NLP建议的政策文件,旨在最大限度地减少作为研究的一部分进行的实验所产生的温室气体(GHG)排放。该提案指的是“在考虑计算成本的同时产生新的AI研究成果,鼓励减少所花费的资源”。
虽然NLP和AI研究的绿色品牌已经提高了对环境影响的一些认识,但绝大多数NLP研究人员仍然没有意识到他们因训练和运行大型计算模型而对环境造成的影响。这也解释了为什么一个类似方向的研究流,提出在训练模型时测量碳足迹的软件工具尚未在很大程度上被社区采用。然而「本文认为,气候意识是必要的,需要在主流NLP中推广(而不仅仅是作为一个小众领域),积极影响必须是讨论的固有组成部分。理想情况下,在决定进行哪种实验时,应该始终考虑到对环境的影响」。
为了提高人们对NLP研究对环境影响的认识,本文旨在简化NLP中的气候表现报告,同时提高对其复杂性的认识。
环境影响调研
环境影响不仅仅是NLP领域的问题,而是整个AI研究领域的问题。在ACL,NeurIPS,以及CVP国际顶会文章中,人们大多关注作者的模型算法是否提高了准确性或者发明了一些新的措施提高了效率。然而,我们认为在文章中仅仅考虑“主要贡献”是不够的。理想情况下,每篇论文都应该有积极的影响,或提供足够的信息以减少和减轻负面影响。
「本文分析了2016-2022年发表的论文数据,然而,这里并不关注主要贡献,而是寻找任何与气候相关问题的讨论」。在研究样本中确定了五个维度(公共模型权重、模型训练或优化的持续时间、能源消耗、执行计算的位置和温室气体排放),并且只考虑深度学习相关的论文,因为对于这些论文来说,与气候相关的问题比使用其他方法的论文具有更高的相关性。下图为我们的调研结果。
可以发现,研究人员在他们的工作中越来越多地讨论与气候相关的问题。例如,发表模型权重的论文比例几乎翻了两番,从2017年的约1%增至2022年的4%以上,除此之外,提供排放或能源消耗信息的论文比例有所增加,然而这些类别的比例仍然很低。「所以说我们有必要进一步提高人们对气候相关问题的认识,并找到一种简单而有效的方式简明地报告这些问题」。
简明的报告方法
早在考虑环境影响之前,效率(与准确性一起)一直是NLP(以及一般计算机科学)的主要目标之一。一般来说,它是指为了实现给定目标而消耗的资源量(输入),例如任务中的特定计算或准确性(输出)。不同的效率定义对应着不同的投入产出概念。至关重要的是(1)理解不同的概念,(2)了解它们的差异,从而了解它们的气候影响,(3)趋同于一组效率措施,这些措施将用于NLP研究中可比较的气候评估。
温室气体协议是企业广泛使用的报告框架。但到目前为止,该标准并未应用到信息和通信技术。本「文以温室气体协议的一般原则(相关性、完整性、一致性、透明度和准确性)为基础,提出改进人工智能气候相关绩效报告的原则」。虽然温室气体协议侧重于温室气体排放,但我们提出了一个更通用的框架,以对应不同的效率概念。因此,我们将“温室气体排放”一词替换为“气候相关绩效评估”一词。
「相关性」:确保与气候相关的绩效评估适当反映与气候相关的模型训练、评估和部署,并服务于研究小组内部和外部用户的决策需求。同时考虑模型的固有因素(如参数数量)和模型外部因素(如能源组合)。
「完整性」:使用标准化模型卡对所有相关的气候相关绩效评估项目进行说明报告,以确保相关信息的可及性。披露并证明任何特定的缺失信息,并解释需要哪些数据输入,说明将来将如何处理丢失的信息以减少信息差距。
「一致性」: 使用一致性方法对一段时间内报告的排放量进行比较。公开记录时间序列中数据、库存边界、方法或其他相关因素的任何更改。使用现成的排放计算工具与其它模型进行比较。如果不使用排放计算工具,需解释为何偏离可用工具并报告对能源组合、转换因子的假设以及计算模型相关排放所需的进一步假设。
「透明度」 :如实解决所有相关问题,以允许独立研究人员对气候相关绩效进行可重复的测量,披露任何相关假设相关的计算方法和数据来源。
「报告的准确性」:实现气候相关绩效量化的足够准确性,使用户能够在完整报告信息的情况下做出决策。即使您对准确性有疑问,也要确保报告与气候相关的绩效。
报告气候相关的绩效本身并不是一个目标。相反,它应该是一种在训练和部署模型时提高意识并将其转化为可操作的气候相关性能改进的方法。此外,气候感知模型性能评估应确保该技术的下游用户可以在气候受限的未来使用该模型。研究人员应该以适应气候变化的 NLP 和算法为目标,以释放长期的积极影响。「如何使AI和NLP模型面向未来应该成为建立任何项目的基本考虑因素。」整合这些考虑因素的整个过程将使用增强的透明度来释放可操作的意识。报告与气候相关的模型性能应该使研究人员能够反思他们的设置并在训练下一个模型时立即采取行动。为了支持研究人员的这种思考,以下提出了本文的气候性能模型卡。
本文模型卡片
下表显示了本文提出的可持续发展模型卡片,分为最小卡片和扩展卡片。最小卡片主要用于社区,其主要包含关于模型分布的非常基本的信息,以及大致投入到模型优化中的计算工作的基本信息。然后,扩展卡包括用于计算 CO2eq 排放的能源组合。
总的来说,本文可持续发展模型卡包含十一个元素:
1、「模型是否公开」。近年来,NLP 研究人员经常将最终模型提供给公众,这提高了模型透明度,同时它避免了多次训练常用模型的必要性。通过发布模型(权重),可以减少计算资源,从而减少 CO2eq 排放。
2、「模型训练时间」。该字段表示训练最终模型所花费的时间(以分钟/小时/天/周为单位)。
3、「实验结果计算时间」。产生研究项目结果所需时间与 CO2eq 排放量密切相关。这里希望激励 NLP 研究人员合理地改变模型类型和超参数。
4、「硬件性能」。除了训练时间之外,主要硬件的功率也是 CO2eq 排放的驱动因素。根据实现的不同,大部分能量由 CPU 或 GPU 消耗,这里要求研究人员报告用于优化模型的主要硬件的功率(以瓦特为单位)。
5、「地理位置」。能源组合(每瓦消耗的二氧化碳排放量)取决于地理位置。因此,报告在哪里训练模型是很重要的。
6、「能源组合」。要计算确切的二氧化碳排放当量,需要结合地理位置的能源结构。
7、「最终模型的二氧化碳排放」。该字段描述了对排放二氧化碳当量的估计。考虑到计算时间、功率和能源组合,本研究的CO2eq总排放量=计算时间*功率*能源组合。
8、「CO2eq 总排放量」。与上一项类似,该字段描述了所有模型实验结果计算期间排放的总 CO2eq。计算相当于第 7 项。
9、 「预期CO2eq排放量」。考虑到未来可能会部署一个模型,使用该模型的预期 CO2eq 排放可能是有价值的。为了确保模型之间的比较,要求作者报告一个样本推断的平均 CO2eq 排放量。
10、「积极的环境影响」。NLP 技术从开始到成熟再到支持解决气候变化的影响。在这一领域,作者可以说明研究产生的预期积极影响。如果基础工作不太可能产生直接的积极影响,作者还可以将工作分类为“基础理论”、“构建块工具”、“适用工具”或“已部署的应用程序”,并讨论为什么他们的工作可以为未来的工作奠定基础,产生积极的环境影响。
11、「评论意见」。此气候性能模型卡的目的是收集有关计算资源、能源消耗和二氧化碳排放量的最相关信息,这些信息模型研究的结果。该评论意见可以包括有关数字是否可能被高估或低估的信息。此外,该字段可用于向读者提供能源消耗和 CO2eq 排放方面可能改进的迹象。
最后
虽然气候意识对于将环境因素纳入 NLP 研究工作中的决策是必要的,但这不足以改变行为,即想让研究人员和从业者采取具体行动减少其负面影响并做出积极贡献,这在其他各种社会问题中很明显,「价值观不一定决定行为。相反,对气候负责的行为也必须成为“新常态”才能成为主流。意识只是实现该目标的第一步」。文章鼓励 NLP 研究人员在论文中使用该模型卡。虽然本文的讨论、调查和建议针对的是 NLP 社区,但也适用于其他 AI 领域。
论文&&源码
Paper:https://arxiv.org/pdf/2205.05071.pdf
Code:https://github.com/danielhers/climate-awareness-nlp