教主黄仁勋烤出540亿晶体管GPU,全球最大7nm安培架构坐稳算力霸主

2020-05-20 15:10:31 浏览数 (1)

新智元报道

编辑:小智、梦佳、元子

【新智元导读】在NVIDIA GTC 2020大会上,黄仁勋终于揭开了英伟达最高机密,亲自在线发布全球最大7nm处理器、首款安培架构GPU,号称是8代GPU史上最大性能飞跃的A100!包含超过540亿个晶体管,整体性能比前一代产品直接提高了20倍,AI训练和推理都能均有提高。「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」

在NVIDIA GTC2020大会上,NVIDIA正式发布了7nm安培GPU,号称是8代GPU史上最大的性能飞跃!黄仁勋从厨房里面烤出了史上最大GPU。

A100:全球最大7nm处理器,首款安培架构GPU

来了,终于来了!全球最大7nm处理器、英伟达最高机密、首款安培架构 GPU,NVIDIA A100,终于出现了!

这次黄仁勋带来的NVIDIA A100数据中心GPU,无论是在数据分析、训练还是推理方面,都能大幅提升数据分析、训练或推理应用的吞吐量,整体性能相较于前一代产品直接提高了20倍

以BERT算法为例,相比T00,A100在训练上提升6倍,在推理上直接提升7倍表现。

A100 GPU 包含超过 540 亿个晶体管,使其成为世界上最大的 7nm处理器。搭配 HBM2 显存,面积 826 平方毫米,60GB/s NV LINK,现已全面投入生产并交付全球客户。

A100 集成了英伟达的几项最新的计算技术,凭借其第三代tensor核心、多实例GPU技术、稀疏度加速以及第三代NVLink和NVSwitch互连技术,可提供每秒1.5兆字节的带宽。它基于NVIDIA全新的Ampere架构,在性能上实现了史上最大飞跃,尤其适用于深度学习和某些特定的 HPC 任务。

甚至第三代 NVIDIA NVLink 互联技术还可以实现让多个 A100 GPU进行合体,组成一个巨型的 GPU 来执行更大规模的训练任务。

DGX A100是一个集成的AI系统,在单个节点上具有5 petaflops的性能,并附带完全加速的软件堆栈。此外,它还可以在全球领先的系统制造商HGX A100超大规模数据中心加速器中使用。

据了解,美国、德国的多个实验室及超算中心已经开始使用 A100 作为超算解决方案。

NVIDIA EGX A100融合加速器,将NVIDIA Ampere GPU和NVIDIA Mellanox ConnectX-6 DX SmartNIC结合在一起,将安全计算带到边缘。黄仁勋还宣布,宝马公司已经选择了NVIDIA Isaac机器人平台用于工厂物流。

同时,黄仁勋还再次提到了实现AI性能新里程碑的Volta Tensor Core GPU,基于Volta的Tesla V100创造了单块处理器最快速度记录。

现场演示更快更懂你的推荐系统、可以互动的会话AI

这些新技术可以随意组合,从而能够让NVIDIA A100在各种苛刻计算负载下都能游刃有余,成为黄金右脚。在科学仿真、会话AI、推荐系统、基因组学、高性能数据分析、地震建模和财务预测等应用场景都有用武之地。

光说不练不过瘾,黄仁勋还亲自示范了推荐系统和会话AI。

更快更懂你的Merlin

你如果分手了,可能会在朋友圈看到世纪佳缘的广告,对,现代的推荐系统就是这么精准,它会根据你的浏览历史或者购买习惯,为你推荐所需的产品或服务。

的确,推荐系统已经无处不在了。黄仁勋认为它是“当今世界上最重要的人工智能模型” ,“驱动着互联网的绝大多数经济引擎”,而英伟达的Merlin正是你需要的推荐系统的应用框架。

NvTabular 通过GPU加速特征转换和预处理,自动完成TB级数据的分区和扩展,原来需要几个小时的高维数据预处理,现在可能3分钟就搞定!

HugeCTR 是一个深层的神经网络训练框架,能够跨多个 GPU 和节点进行分布式训练,以获得最大的性能。

Nvidia TritonTM Inference Server 和 NVIDIA TensorRTTM 加速了GPU 的特征转换和神经网络执行的推理速度。

双簧大师、对话鬼才:Jarvis

黄仁勋再次推销起自家的会话AI:Jarvis。

英伟达为了展示Jarvis的能力,特意打造了一个「对口型人脸模型」以及一个聊天机器人Misty。

英伟达一名工程师兼Rapper来了一段黑怕,人脸模型就根据声音来对口型。相比正常说话,黑怕的速度更快,词汇更加复杂。下面的动图看得出,Jarvis毫无假唱痕迹。

而一个雨滴型的聊天机器人Misty就更有意思了。她可以根据不同的聊天内容做出一些好玩的特效。比如你问她世界上最冷的城市,她不仅能够给出准确的答案,还会用动画特效来显示出寒冷之意。而讲到闪电,除了讲解闪电的基本常识外,还显示了一个被雷劈的效果,看着挺疼的…

Spark工程师的福音

黄仁勋还宣布 Apache Spark 3.0中将支持GPU加速,用Apache Spark 从事数据分析和机器学习的人员来说无疑是天大的福音。

Spark之前虽然可以实现分布式计算,但调度CPU也会耗费巨大的资源,之前如果每秒处理17GB的数据,你需要价值100万美元的戴尔服务器。

而在Spark 3.0中有了英伟达最新GPU的加速,直接成本只需要原来的1/5,而功耗更是减少到原来的1/3,用黄仁勋的话来说,太壮观了!

疫情期间AI治病救人

黄仁勋首先讲述了在英伟达和Mellanox共同打造的数据中心加速计算的未来。

疫情当前,首要的就是治病救人。

英伟达与Plotly合作,进行实时感染率的分析。「在Oak Ridge国家实验室和Scripps的帮助下,我们每天能够筛选十亿种药物。」

NIH和NVIDIA建立了一个AI模型来对COVID-19进行分类。Kiwibot建造了一个机器人来自动提供医疗供应。医疗领域深度学习创企Whiteboard Coordinator构建了一个AI系统自动检测体温。

「研究人员正在运用NVIDIA的加速计算来挽救生命。」

除了医疗AI,英伟达的合作伙伴还包括各行各业的领军者。

Oxia Palus:用AI修复名画

英伟达DLSS 2.0,AI渲染的里程碑

实时光线追踪,一直是游戏发烧友们梦想中的效果。

在Part2,黄仁勋介绍了NVIDIA RTX如何将计算机图形学带入一个新时代,该技术将光线追踪(ray tracing)和AI相结合,创造出令人眼花缭乱的视觉效果。

2018年温哥华的Sigraph上,英伟达RTX正式发布,是计算机图形的一个里程碑。

而英伟达团队在过去的三年中一直在试图解决一个问题,就是ray tracing速度不够快的问题。

于是,今年3月份发布的NVIDIA 的DLSS 2.0(deep learning super sampling深度学习超级采样)应运而生。

DLSS2.0是一个改进版的深度学习神经网络,基于GeForce RTX GPU的Tensor Cores,实现了实时光影追踪,它可以使用AI将低分辨率图像放大到优于原生1080p的画质

「我们目的是让AI认识到真正高清晰度的画面是什么样的,通过不同场景的训练,神经网络可以预测出下一帧高清画面的样子」。

使用DLSS2.0深度学习超分辨率从720p渲染到1080p比原生的1080p画面还要更加优质

这是一个意义重大的飞跃!

将RTX融入到著名游戏Minecraft 游戏当中,灯光效果相当惊人。

有没有RTX,前后效果相差巨大。

总结说来,这次厨房发布会还是干货满满,不再像19年的那次「三无」发布会。

新的 NVIDIA Ampere 架构、 NVIDIA A100、 GPU 加速的Spark 3.0、 Merlin、 Jarvis -- RTX Server、 DGX A100、 Mellanox connectx 6 DX SmartNIC、 HGX A100、 EGX A100,医疗AI、自动驾驶、数据中心,英伟达已经开始向AI领域全面进军。

一个属于加速计算的未来,你准备好了吗?

0 人点赞