作者 | 包永刚
编辑 | 丛 末
突如其来的新冠肺炎大流行打乱了众多公司的产品发布计划,比如本该在今年3月英伟达(NVIDIA)GTC 2020上发布的安培(Ampere)架构曝光多次却一直未发布。今天,英伟达CEO黄仁勋发布了英伟达新一代GPU架构安培,并带来了基于安培架构GPU A100的DGX-A100 AI系统和面向边缘AI计算的EGX A100。
有意思的是,受疫情影响,已经在家工作四十五天的黄仁勋是在家里的厨房提前录制了演讲视频,用三个视频完成了2020 GTC的主题演讲和新品发布。
此次GTC 2020最重磅的产品自然是安培架构GPU A100,这是目前全球最大的7nm芯片,面积高达826平方毫米,集成了540亿个晶体管。相比Volta架构实现了高达20倍的性能提升,并且可以同时满足AI训练和推理的需求。
由8个安培A100 GPU打造的NVIDIA DGX A100 AI系统单节点性能达到了创纪录的5 petaflops。
1
第八代安培GPU架构性能提升高达20倍
安培是英伟达继2018发布的Turing(图灵)架构之后的最新一代GPU架构,也是英伟达推出的第八代GPU架构。黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。这是有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。A100将在提高吞吐量的同时,降低数据中心的成本。”
据悉,第八代安培架构GPU采用的是台积电7nm工艺,使用的是最新的3D封装技术,集成540亿个晶体管也让安培架构GPU A100成为了全球最大的7nm芯片。除此之外,A100还有另外四大关键特性:
- 具有TF32的第三代 Tensor Core核心,英伟达广泛采用的 Tensor Core核心现在已变得更加灵活、快速且易于使用。
- 多实例GPU-MG,一种全新技术功能,可将单个A100GPU分割为多达七个独立的GPU,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。
- 第三代 NVIDIA NVLInk,使GPU之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。
- 结构化稀疏,这种全新效率技术利用AI数学固有的稀疏性,使性能提升了一倍。
对于具有TF32的第三代Tensor Core核心,黄仁勋解释,其功能经过扩展后加入了专为AI开发的全新TF32,它能在无需更改任何代码的情况下,使FP32精度下的AI性能提高多达20倍。此外,TensorCore核心现在支持FP64精度,相比于前代,其为HPC应用所提供的计算力比之前提高了多达2.5倍。
20倍的提升之所以是对比2017年发布的Volta架构而不是2018年发布的图灵架构,雷锋网认为主要是因为此前英伟达发布的两代AI系统DGX-1和DGX-2都是基于Volta架构GPU Tesla V100,今天推出的基于安培架构的DGXA100是最新第三代AI系统,把两者进行对比更有意义。
凭借这些新功能,英伟达A100能够成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。
不过,雷锋网认为,灵活性是性能之外A100更重要的竞争力所在,这个灵活性包括三个层面,第一个层面是A100采用的弹性计算技术能够为每项工作分配适量的计算能力,多实例GPU技术可将每个A100 GPU分割为多达七个独立实例来执行推理任务。
第二个层面,第三代NVLink互联技术能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。
最后一个也是最重要的,安培架构的A100既可以做训练也可以做推理。英伟达给出的数据显示,A100对比前代Telsa V100,进行BERT模型训练性能提升了6倍,BERT模型推理性能提升了7倍。
2017年发布Volta架构的时候,黄仁勋就说:“从 Volta 开始,英伟达 GPU 将对训练、推理兼顾,可谓是革命性的突破。”三年后,他在很大程度上兑现了自己所说的,而这也能够继续保持英伟达在AI市场的领导力。
要把这个问题说清楚就得从最新推出的DGX A100说起。
2
DGX A100单节点性能达创纪录的5 Petaflops
黄仁勋表示,“AI已经被应用到云计算、汽车、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”
为此,英伟达推出了第三代AI系统DGX A100,高达5 Petaflops(每秒一千万亿(10的15次方)次浮点运算)的Al性能刷新的全球最高激励,并且首次将整个数据中心的性能和功能集成到一个灵活的平台中。
DGXA100系统集成了8个A100 Tensor Core GPU, 具有320GB内存用以训练最大型的AI数据集,以及速度可达200Gbps MeLLanox HDR互连。
另外,利用A100的多实例GPU功能,每台DGXA100系统能够被分割为多达56个实例,用于加速多个小型工作负载的处理速度。凭借这些功能,企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源,加快数据分析、训练和推理等各种工作负载的速度。
总结起来,DGX A100有6大技术特性:
- 8 个 NVIDIA A100 TensorCore GPU, Al 性能达 5PetafLops, GPU 内存共 320GB ,有着每秒 12.4TB的带宽。
- 6 个采用第三代NVIDIA NVLink技术的NVIDIA NVSwitch互联结构,4.8TB每秒的双向带宽
- 9个 MeLLanox ConnectX-6 HDR 200Gb/s网络接口,提供总计每秒3.6TB的双向带宽。MeLLanox网络计算和网络加速引擎,例如RDMA、GPUDirect,以 及SHARP技术,实现最高性能和可扩展性。
- 15TB Gen4 NVMe 内存,速度比 Gen3 NVMe SSDs 快 2 倍。
- NVIDIA DGX软件堆栈,其中包括专为AI和数据科学工作负载而优化的软件,能够实现性 能的最大化,使企业能够更快获得AI基础架构投资回报。
DGX A100系统的起售价为19.9万美元,英伟达已经开始销售DGXA100。19.9万美元看起来十分昂贵,但其实可以为云服务提供商降低成本和功耗,这是云服务提供商的痛点。
黄仁勋说,通过一个价值100万美元由5个DGX A100系统组成的机架,可以取代当下价值1100万美元,由50个DGX-1和600个CPU组成的25个机架AI训练和推理的数据中心。并且,功耗也可以由630kW大幅降低至28kW。
也就是说,5个DGXA100组成的系统,实现相同的性能,耗电量为现有数据中心系统的1/20,空间为1/25,成本为1/10。
据悉,DGXA100的首批订单将送往美国能源部的阿贡国家实验室(Argonne National Laboratory),该实验室将运用该集群的Al和计算力来更好地研究和应对新冠肺炎。
更厉害的是,英伟达还展示了新一代DGXSuper POD,这个集群由140台 DGXA100系统组成,AI算力高达700 Petaflops,利用 MeLLanox HDR 200Gbps InfiniBand 互连技术,NVIDIA 将 140 台 DGX A100 系统结合在一起,构建了 DGXSuper POD AI超级计算机,用于内部对话式AI、基因组学和自动 驾驶等领域的研究。
黄仁勋称,DGXSuper POD集群是全球速度最快的AI超级计算机之一,其性能相当于此前数千台服务器的性能。凭借DGXA100的企业就绪型架构和性能,NVIDIA得以在不到一个月的时间内构建了该系统,而以往交付具备这样能力的超级计算机需要花费数月甚至数年的时间来计划和采购专用的组件。
另外,为帮助客户构建他们自己的由A100提供算力的数据中心,英伟达发布了全新DGX Super POD参考架构。还推出了 NVIDIA DGXpert计划 , 帮助DGX客户与英伟达的Al专家建立联系。同时,英伟达还推出DGX-Ready软件计划,帮助用户在AI工作流程中充分利用各种经过认证的企业级软件。
更高性价比,更具灵活性的DGXA100对于全球的云服务提供商以及研究机构显然都很有吸引力,同样基于A100的EGXA100也同样如此。
3
两款边缘AI平台扩大生态系统
面向边缘AI市场,英伟达此次GTC 2020推出了两款计算平台,分别是适用于较大型商业通用服务器上的EGX A100和适用于微型边缘服务器的微型EGX Jetson Xavier NX 。
黄仁勋介绍说,EGXA100聚合加速器和EGX Jetson Xavier NX微型边缘服务器分别被设计用于满足不同尺寸、成本和性能需求。例如搭载了EGX A100的服务器可以管理机场中的数百台摄像头,而 EGX Jetson Xavier NX则可用于管理便利店中的少量摄像头。而云原生技术支持能够确保整个EGX产品家族都可以使用同一经过优化的AI软件轻松构建和部署AI应用。
其中,EGXA100是基于安培架构的A100 GPU,借助英伟达的MeLLanox ConnectX-6 Dx板载网卡,EGXA100可以每秒接收高达200 Gb的数据并将其直接发送到GPU内存以进行AI或 5G信号处理。
EGXA100作为一个云原生软件定义加速器,可以处理对延迟最敏感的5G应用,这为在一个行动点(如:商店、医院和工厂车间)做出智能实时决策提供了局性能AI和 5G平台。
EGX Jetson Xavier NX没有采用最新GPU,不过英伟达称其为全球体积最小、性能最强大的Al超级计算机,适用于微型服务器和边缘智能物联网盒。
据悉,在EGX Jetson Xavier NX的生态圈内,合作伙伴已提供了超过20种解决方案。可以将英伟达Xavier SoC的性能整合到了一个信用卡大小的模块中,运行 EGX云原生软件堆栈的EGX Jetson Xavier NX可以快速处理来自多个高分辨率传感器的流式数据。
值得一提的是,EGX边缘AI平台的云原生架构使其可以运行容器化的软件,英伟达应用框架包括了用于医疗领域的Clara、用于电信领域的Aerial、用于对话式AI领域的Jarvis、用于机器人技术领域的Isaac, 以及用于零售、智慧城市、交通等领域的Mertopolis。
目前整个EGX产品家族均支持云原生技术,因此智能机器制造商和AI应用开发者们可以在嵌入式及边缘设备上构建和部署针对机器人技术、智慧城市、医疗、工业物联网等领域的的软件定义功能。
4
雷锋网小结
三年前的5月,黄仁勋发布了Volta架构的Tesla V100 GPU,并推出了基于它的AI系统DGX-1。今天,由于新冠肺炎疫情的影响,本来计划在三月发布的最新一代安培架构推迟到了5月。基于安培架构的首款GPU A100是全球最大的7nm芯片,性能相比Volta架构提升最高可以达到20倍,一个架构就可以同时应用于云端和边缘端。
更为重要的是,基于A100的DGXA100 AI系统能够帮助云服务提供商大幅降低数据中心的硬件采购成本和电费支出(这是数据中心的重要支出)。同样基于A100的EGXA100边缘计算平台能够将AI应用于更多的AI场景以及已经开始商用的5G市场。
这种架构的灵活性以及产品的灵活组合,能够让英伟达昂贵的GPU有高的性价比,而安培架构更好实现训练和推理性能的提升,也更有助于英伟达打造云端和边缘端一体化的AI产品,保持在AI市场的竞争力。
可以看到,在云端市场英伟达用安培架构GPU同时满足训练和推理需求,这将在云端AI推理芯片市场占有优势的英特尔带来更大的竞争压力,而想要挑战云端芯片市场的AI芯片的初创公司难度也进一步升级。在边缘市场,英伟达用高性能、多产品组合去满足市场丰富的应用需求,持续开拓生态,要将云端的优势拓展至边缘端。
这样看来,已经在数据中心、汽车、医疗AI市场都有优势的英伟达,还正在与开源社区合作为Apache Spark 3.0带来端到端的GPU加速,正进一步向AI市场发起了全面的攻势。这是否意味着英伟达离AI产品收入高于游戏显卡收入的时代也不远了?
注,文中配图均来自英伟达