世界领先的科技公司并不是每天都强调对手产品的好处。
英特尔(Intel)上周就这么做了,将两款最昂贵的cpu与英伟达(NVIDIA) gpu的推理性能进行了比较。
据Anandtech称,为了实现单一主流NVIDIA V100 GPU的性能,英特尔将两款耗电量大的高端cpu组合在一起,估计售价在5万至10万美元之间。英特尔的性能比较还突出了为推理而构建的NVIDIA T4 gpu的明显优势。与单台最高端的CPU相比,它们不仅速度更快,而且能效提高了7倍,成本效率提高了一个数量级。
推理性能是至关重要的,因为AI驱动的服务正在呈指数级增长。英特尔最新的Cascade Lake cpu包含了改进推理的新指令,使其成为推理的最佳cpu。然而,它很难与NVIDIA深度学习优化Tensor Core GPU 竞争。
简单地说,推理(也称为预测)是神经网络经过训练后所做的“模式识别”。在这里,人工智能模型在应用程序中提供智能功能,比如检测金融交易中的欺诈行为,用自然语言交谈搜索互联网,以及在制造故障发生之前修复它们的预测分析。
虽然目前大多数的人工智能推理都是在cpu上进行的,但是NVIDIA Tensor Core GPU正迅速被整个人工智能模型所采用。Tensor Core 是一项突破性的创新,它将英伟达的gpu变成了高效、多功能的人工智能处理器。Tensor Core 以高速率进行多精度计算,为各种人工智能模型提供最优精度,并在流行的人工智能框架中提供自动支持。
这就是为什么越来越多的消费互联网公司——包括微软、Paypal、Pinterest、Snap和Twitter——正在采用GPU进行推理。
Tensor Core GPU在计算机视觉中的应用
Tensor Core gpu最初是由NVIDIA Volta架构引入的,现在随着NVIDIA Turing已经进入了第二代。Tensor Core为AI执行非常高效的计算,其精度范围从16位浮点数32位累加到8位甚至4位整数运算32位累加。
它们旨在加速人工智能训练和推理,并且很容易使用TensorFlow和PyTorch框架中的自动混合精度特性。开发人员只需向TensorFlow项目添加两行代码,就可以实现3倍的培训速度。
在计算机视觉方面,如下表所示,当比较相同数量的处理器时,NVIDIA T4速度更快,省电7倍,价格也便宜得多。NVIDIA V100是为人工智能训练而设计的,在推理方面比cpu快两倍,节能两倍。
表1:ResNet-50上的推论
Tensor Core gpu在理解自然语言方面的重要价值
人工智能一直在以疯狂的速度前进。这种快速的进步是由人工智能研究人员和数据科学家组成的团队推动的,他们不断创新,创造出高度精确和指数级更复杂的人工智能模型。
四年多前,计算机视觉是微软的人工智能第一批能够使用ResNet-50等模型以超人的精确度执行任务的应用程序之一。如今的先进模型可以执行更复杂的任务,比如以超人的精确度理解语言和言语。去年由谷歌开源的高度复杂的人工智能模型BERT,现在可以理解散文并以超人的准确性回答问题。
衡量人工智能模型复杂性的一个指标是它们拥有的参数数量。AI模型中的参数是存储模型所学习到的信息的变量。ResNet-50有2500万个参数,而BERT有3.4亿个参数,增加了13倍。
在像BERT这样的高级模型上,单台NVIDIA T4 GPU的速度比双插槽CPU服务器快59x,而且更省电240x。
表2:BERT推理。工作负载:对BERT大数据集进行微调推理。
CPU服务器:双插槽Xeon Gold 6240@2.6GHz;内存384 gb的系统;FP32精度;采用英特尔的TF Docker container v. 1.13.1。注意:批大小为4的结果产生了最好的CPU得分。
GPU结果:T4:双插槽Xeon Gold 6240@2.6GHz;内存384 gb的系统;混合精度;CUDA 10.1.105;NCCL 2.4.3, cuDNN 7.5.0.56, cuBLAS 10.1.105;NVIDIA驱动418.67;基于自动混合精度和XLA编译器的TensorFlow批量大小4和序列长度128用于所有测试平台。
Tensor Core gpu在推荐系统中的应用
人工智能的另一个关键用途是推荐系统,该系统用于在视频分享网站、社交网站上的新闻源和电子商务网站上提供相关内容推荐。
神经协同过滤(NCF)是一种推荐系统,它利用用户与项目之间先前的交互来提供推荐。NCF模型是MLPerf 0.5训练基准的一部分,在NCF模型上运行推断时,NVIDIA T4带来的性能是cpu的10倍,能源效率是cpu的20倍。
表3:NCF上的推理
CPU服务器:单插槽Xeon Gold 6240@2.6GHz;内存384 gb的系统;使用Intel的TF Docker容器版本1.13.1在TensorFlow上为NCF使用Intel基准;FP32精度。注意:单插槽CPU配置用于CPU测试,因为它产生了比双插槽更好的分数。
GPU结果:T4:单插槽Xeon Gold 6140@2.3GHz;内存384 gb的系统;CUDA 10.1.105;NCCL 2.4.3, cuDNN 7.5.0.56, cuBLAS 10.1.105;NVIDIA驱动418.40.04;基于自动混合精度和XLA编译器的TensorFlow批处理大小:CPU 2048, T4 1048576;精度:CPU采用FP32, T4采用混合精度。
统一的人工智能训练和推理平台
在应用程序中使用AI模型是一个迭代过程,旨在不断提高它们的性能。数据科学家团队不断用新的数据和算法更新他们的模型,以提高准确性。然后开发人员在应用程序中更新这些模型。
更新可以每月、每周甚至每天进行。拥有一个用于人工智能训练和推理的单一平台可以极大地简化和加速在应用程序中部署和更新人工智能的过程。
NVIDIA的数据中心GPU计算平台在人工智能培训方面的性能遥遥领先于业界,这一点可以通过标准的人工智能基准MLPerf得到证明。NVIDIA平台为推理提供了令人信服的价值,这里提供的数据证明了这一点。这一价值随着现代人工智能的日益复杂和进步而增加。
为了推动人工智能的快速发展,英伟达与生态系统进行了深入的合作,并不断优化软件,包括TensorFlow、Pytorch和MxNet等关键框架,以及TensorRT和TensorRT推理服务器等推理软件。