NVIDIA携手Intel和Arm发布FP8标准,提升AI运算速度和效率

2022-09-27 10:57:13 浏览数 (1)

9月16日消息,为了加速 AI 训练、推理的发展,英伟达(NVIDIA)、英特尔(Intel)以及 Arm 近日携手发布了“FP8 Formats for Deep Learning”白皮书,希望能通过 8 位浮点运算的格式来改善运算性能,并将其作为 AI 通用的交换格式,提升深度学习训练与推理速度。目前该白皮书也已提交给了电气与电子工程师协会(Institute of Electrical and Electronics Engineers, IEEE)。

FP8 格式之所以重要的原因有很多,其中最重要的是,到目前为止,AI 推理之间存在一种分裂,以整数格式(通常为 INT8,但有时为 INT4)以低精度完成,与 AI 训练以 FP16、FP32 或 FP64 精度完成,HPC 以 FP32 或 FP64 精度完成。NVIDIA和 Intel 都认为 FP8 不仅可以用于推理,在某些情况下还可以用于 AI 训练,从而从根本上提高其加速器的有效吞吐量。

NVIDIA 表示,AI 发展需要跨硬件、软件平台的全面创新,以解决神经网路日益成长的运算需求。而提高效率的其中一个关键是使用较低精确的数字格式改善运算效能,同时降低记忆体使用并最佳化频宽互联。为此,目前业界已由 32 位元降至 16 位元,如今甚至已转向 8 位元。

NVIDIA 认为,拥有一种共通的交换格式,将能推动软体与硬体平台的互动,进而加快 AI 运算发展。也因此,NVIDIA、Intel 和 Arm 携手合作,共同撰写 FP8 Formats for Deep Learning 白皮书,透过描述 8 位元浮点运算规格,提供一个共同的交换格式加速 AI 训练、推理。

NVIDIA 进一步解释称,FP8 规范有两个版本,分别是 E5M2 和 E4M3,可最大限度减少与现有的 IEEE 754 浮点格式的偏差,能为 AI 训练、推理发展带来更大的自由度,得以在硬件与软件间取得良好平衡,以改善开发者的生产效率。

根据实验结果,在广泛的训练架构中,像是 Transformer,FP8 训练的准确性都类似 16 位元结果,但却有更好的效能。譬如 NVIDIA Hopper 便利用新的 FP8 格式,在 BERT 高精度模型上实现了 4.5 倍的加速。

NVIDIA 强调,与 Intel、Arm 合作撰写 FP8 Formats for Deep Learning 白皮书,是希望透过开放、免费授权的方式,提供一个通用、可维持准确性的交换格式,以加速 AI 发展,并让 AI 模型在所有硬件平台上都能有一致、高效的表现。

值得注意的是,AI芯片企业Graphcore 也正在推动 IEEE 采用供应商为 AI 设计的 FP8 格式作为其他所有人都可以使用的标准。此外,AMD 和高通也支持将FP8格式作为标准格式,以帮助降低云和边缘的训练和推理成本。”

编辑:芯智讯-林子

0 人点赞