大数据文摘出品
作者:Andy、刘俊寰、魏子敏
来了,来了,穿着熟悉的皮衣,史上最硬核直播带货王者又来了。
推迟了2个月,北京时间5月14日晚9点,英伟达创始人兼首席执行官黄仁勋在自家的厨房里,“亮相”GTC 2020主题演讲会。他把这次的发布会称为,“英伟达史上首次Kitchen keynote(厨房发布会)”。
这次,芯片圈的“李佳琦”带来了安培(Ampere)架构GPU!7nm工艺,540亿晶体管,20倍AI算力。
NVIDIA还没有正式公开安培GPU的详细架构细节,但是跟上次的图灵GPU一样,黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃。
当然,价格也很美丽,20万美元一个!
不过,看了直播的同学都表示,真的心动!buy more save more,速度提升太多了!
先来看看黄教主重点强调的五大关键性能:
- 超过540亿个晶体管,史上最大的7nm处理器。
- 第三代Tensor Core AI核心,支持英伟达自创数值格式TF32 (Tensor Float 32) 运算,无需任何代码修改就能让单精度 AI 训练提速20倍,同时支持FP64双精度运算,比起上一代GPU提速了2.5倍。这样一来,NVIDIA 被广泛应用的 Tensor Core 也就变得更灵活,更快,更易于使用了,黄教主如是说。
- 结构稀疏加速,这是一种新的高效技术,主要利用了现有 AI(神经网络)固有的稀疏性来获得更高的性能。
- 多实例GPU,又名MIG,允许将一个 A100 划分为多达七个独立 GPU,每个GPU都有自己的资源。
- 第三代 NVLink 技术使GPU之间的高速连接能力加倍,允许多个 A100 服务器可以充当一个巨型GPU。
再来仔细看看这个庞然大物?,超过3万个组件,重量达到了50磅(45斤),通过NVLink连接的八个GPU(600 GB),每秒六个NVSwitch,一百万次钻孔,一公里的走线连接。
特殊时期,这次的发布也不同以往,以8段视频录像的方式放出,总计一个半小时,感兴趣的同学可以在以下链接直接观看。
链接指路?
https://www.nvidia.cn/gtc/keynote/?ncid=so-wech-89131&sfdcid=DL01
基于 Ampere 架构的数据中心 GPU 卡 A100
正如黄教主提到,这次发布会的一个关键词,便是,数据中心。
本次“厨房”发布会的重头戏,A100 被刻意给了近 24 分钟的长度,而有些短的视频只有可怜的 6 分钟。
现代数据中心架构最大的特点就是复杂性。我们需要在上面跑各种各样的应用,此外还有数据处理,AI 训练推断等等等。这让整个现代数据中心无比复杂。
而英伟达针对这样的复杂度,第一步就是先将 CPU 服务器和存储服务器给拆解开,而中间所需的高速传输,就靠新的小伙伴 Mellanox 提供的高速网络支持。
而第二步就是对其中个各种工作进行统一加速。而过去发布的硬件都是对各自的一些任务进行专有加速。所以对于据有弹性的能对各个任务的芯片需求是非常大的,特别是云服务,对这样的硬件更加需求。
毫无疑问的云服务也是过去整个计算机领域增长最快的一个服务。
接着黄教主,便从怀里,哦不,烤箱里掏出了他此次发布会的终极产品,金光闪闪的 NVIDIA A100 数据中心 GPU 卡。主要基于的技术便是大家期盼已久的 Ampere 技术,卡代号 A 想来也是 Ampere 的缩写。
?5月12日,英伟达官方就已经发布了一个短视频《老黄在厨房里忙活啥?》,视频中,黄教主从烤箱中拿出了“世界上最大的GPU”,并表示,“已经烤了一段时间了”,亲自为演讲预热。
这张A100处理器板重达50磅,通过NVLink连接的八个GPU(600 GB),每秒六个NVSwitch,一百万次钻孔,一公里的走线连接。超过30,000个组件。
当然不光是硬件上面惊人,在实际性能上也带了惊人的提升。
A100卡上最大的几个突破是,第一它用了台电7纳米级别专为英伟达优化的处理器,同时将其连接在HBM2内存上,于是就能提供1.5TB的缓冲带宽!这是历史上首个可以每秒超过1.5TB带宽的处理器。
第二点,A100还支持英伟达自己开发的新数值格式TF32 (Tensor Float 32) ,它能表示一般FP32位的范围,而却只需FP16的精度。这就意味着,如果需要对32位加速的话,连代码都不要改,就可以直接实现加速效果。但是黄教主这里还遗憾的表示了没有对FP16的运算,还表示大家都在用FP32,但是文摘菌表示日常混合精度FP16真香,希望之后能带来FP16的加速,进一步提高速度。
之后黄教主展示了A100 TF32运算和V100的对比,提速非常明显。
除了TF32,A100还有一点非常值得关注的性能,那就是稀疏运算加速,首先训练一个密集网络,之后再将其中值比较小的直接置零,重新训,从而获得两倍的加速,模型大小也小了。
如果对最近深度学习理论成果有些了解的同学,一定会对这个过程非常熟悉,因为这就是去年才提出并且非常火的一个理论,彩票理论的训练过程。看到这里不得不感叹英伟达对学术前沿实现的快速,当大家还在继续探索彩票理论里面的理论细节时,他们已经直接给做到硬件上去了。
然后就到了秀图时间,黄教主展示出,A100 卡与之前最好的 GPU 卡 V100 的对比。
在各个精度上都有很大的提升,特别是通过稀疏加速后,在INT8精度上,相对于之前的 V100 加速了 200 倍!也就是如果用INT8训练模型的话,200天才能训练完的模型,现在只需要一天!
除了上面两个加速,Ampere 带个 A100 的第三个非常实用的性能是,MIG,多实例 GPU。
简单来说就是可以将一块大的 A100 分成多个小块,给大家一起用。
这对云服务器是非常重要的,这样的话就可以多个用户公用一张卡,而不用担心资源的问题。当然也可以大家众筹一张 A100,然后分着用。
当然给大家看再多数据或图都是空的,黄教主接着展示用 MIG 分卡后两个真实应用的加速。
第一个是自然语言处理中的推土机 BERT 预训练模型的训练,相对于 V100 卡,训练速度直接提高了 6 倍,而推理速度提高 7 倍;第二个是识别鸟声音的应用,用动画展示了加速效果。
黄教主接下来展示了 DGX,第三代 AI 集成系统。
发布NVIDIA DGX A100:世界上第一台5 Petaflops服务器
英伟达还发布了基于NVIDIA A100的第三代NVIDIA DGX AI系统,即NVIDIA DGX A100,这是世界上第一台5 petflops服务器。每台DGX A100可以分为多达56个示例,全部独立运行。
美国能源部的阿贡国家实验室将使用DGX A100的AI和计算能力来更好地理解和对抗COVID-19。
黄教主称,这使得单个服务器可以“扩展”以完成诸如 AI 训练之类的计算密集型任务,或者“扩展”以进行AI部署或推理。
该系统的最初接收者是美国能源部的阿贡国家实验室,该实验室将使用该集群的AI和计算能力更好地理解和对抗COVID-19。以及佛罗里达大学;和德国人工智能研究中心。
发布会上英伟达表示,一个由五个DGX A100系统提供动力的数据中心,用于AI训练和推理,仅需28千瓦的电源,就可以完成一个典型的数据中心的工作,成本为100万美元。
在正式演讲中,除了被期待已久的DGX A100,发布会还有以下亮点值得一看。
发布全新数据库Magnum IO
全新的IO SDK——黄教主将其命名为Magnum IO,它包括了跨节点的通信能力,从存储端到GPU移动数据,它将成为最重要的数据库。
英伟达联手Spark,支持NVIDIA GPU加速的Spark 3.0
为了将GPU加速处理用于更庞大的数据,也是为了帮助各种组织跟上发展,黄教主在发布会上宣布,联手Spark社区,Spark 3.0将支持NVIDIA GPU加速。
Spark 3.0实现了多项突破,不仅在成本的1/5、电力的1/3实现了功能,“买得越多,就越省钱”:还表现在以下四点:
- IO存储和多节点管理计算快如闪电;
- 更智能的调度,3.0系统能分清GPU和GPU内存,进而以分布式安排和管理工作;
- RAPIDS能够提取数据、创建数据框、实现特征分析、SQL查询和拦截等;
- Spark SQL加速器Catalyst已经完成优化,并部署在了Spark 3.0上。
黄教主表示,Spark 3.0基于RAPIDS构建,打破了提取、转换和加载数据的性能基准,目前已经帮助帮助Adobe Intelligent Services降低了90%的计算成本。
目前,Amazon SageMaker、Azure机器学习、Databricks、Google Cloud AI和Google Cloud Dataproc等关键云计算分析平台都借助英伟达实现加速。
发布推荐系统端到端框架NVIDIA Merlin
推荐系统正在吞并世界,从电影到商品的选购,都离不开个性化的机器学习推荐系统。
发布会上,英伟达还发布了全新深度推荐系统应用框架NVIDIA Merlin,用于构建下一代推荐系统的端到端框架。
新的框架系统主要针对大规模数据的处理,黄教主举例称,针对1TB的数据集,Merlin将创建推荐系统可以将所需的时间从1天半减少到16分钟。针对100TB的数据集,使用Merlin可以将数据处理时间从20天减少到4天。
更好的DDLS,更多的高清游戏地图
2018年,英伟达的RTX的宣布开启了计算机图形的新纪元。
黄教主表示,A100将搭载第三代Tensor内核,以实现更快更高效的AI学习和扩展,在A100中,那些第三代Tensor内核也将使用一种称为TF32的新数学格式,旨在加快其开箱即用的AI培训的数量。
近两年随着AI的不断进步,放大低分辨率图像,以更高分辨率和更高清晰度重新呈现,根据黄教主介绍,英伟达这次利用了全新的RTX和DLSS 2.0进行演示。诚然,这不是在A100 GPU上运行的,但仍然让我们看到了光线跟踪和DLSS未来的发展方向。
过去这两年,英伟达也一直在针对这项技术不断创新,在与《我的世界》的合作中,有一个完全可玩的基于物理的游戏的演示,该游戏同时使用了光线追踪和AI技术。Nvidia Omniverse平台(9分45秒)可在单个Quadro RTX 8000 GPU上实现交互式实时逼真的环境。
效果如下图所示,只恨网速带不动这么高清的画面:
同时,英伟达还联合与《我的世界》建造者合作,在Windows 10 Beta版上为《我的世界》RTX版打造全新地图,供玩家免费体验。这也是英伟达发布的第二波《我的世界》体验地图,即日起可在《我的世界》下载这5个全新作品。
语音对话的系统平台NVIDIA Jarvis新动向
此外,黄教主还重点介绍了用于语音对话的系统平台NVIDIA Jarvis,用于创建实时,多模式对话式AI,视频中,展示了与友好的AI Misty进行交互的过程,Misty实时了解并回答了一系列有关天气的复杂问题。
与宝马合作,Isaac机器人下车间
发布会上,英伟达还公布了在机器人领域的新进展,宣布已经与宝马汽车合作,在其下一代工厂中引入NVIDIA Isaac机器人,完善自动化生产能力。
新冠疫情之下,英伟达让我们半忧半喜,早在2月中旬,英伟达首次宣布取消MWC 2020,但在半个月前,英伟达又以70亿美元的价格打败英特尔和微软,拿下以色列芯片商Mellanox,完成史上最大规模的一次收购。这次的发布会也是非常高产,最后,文摘菌也放上发布会完整内容以及各部分链接,感兴趣的同学可以找最感兴趣的内容观看啊?
【Youtube】NVIDIA GTC 2020 Keynote 播放列表
https://www.youtube.com/playlist?list=PLZHnYvH1qtOZ2BSwG4CHmKSVHxC2lyIPL
介绍?
https://www.nvidia.cn/gtc/keynote/?video=1
RTX图形?
https://www.nvidia.cn/gtc/keynote/?video=2
高性能计算和数据分析?
https://www.nvidia.cn/gtc/keynote/?video=3
推荐系统?
https://www.nvidia.cn/gtc/keynote/?video=4
对话AI ?
https://www.nvidia.cn/gtc/keynote/?video=5
A100 GPU, HGX A100, & DGX A100?
https://www.nvidia.cn/gtc/keynote/?video=6
边缘AI与机器人 ?
https://www.nvidia.cn/gtc/keynote/?video=7
自动驾驶?
https://www.nvidia.cn/gtc/keynote/?video=8