“亲儿子”背刺,汽车客户着手自研,以太坊合并……面对诸多外部因素,今晚狂秀肌肉的英伟达之后会如何呢?
作者 | 来自镁客星球的晓雾
昨日夜间11点,依旧一身皮衣的黄仁勋亮相发布会,一连发布多款硬件新品,带来了两年一大升级的GeForce RTX 40系列,也带来了自动驾驶领域的最新之作。
其中,如同此前网上所传闻的,RTX 40系列首发产品包含GeForce RTX 4090和GeForce RTX 4080两个型号三款产品,至于其性能如何,我们接下来慢慢看。
RTX 4090:新架构、DLSS 3与台积电4nm工艺
在首发的三款产品中,RTX 4090 GPU为旗舰产品,采用了台积电4nm工艺,拥有760亿个晶体管、超18000个CUDA核心和美光24GB GDDR6X显存,能够在4K分辨率的游戏中持续以超过100 FPS运行。
而取代过往的Ampere架构,此次RTX 40系列首次采用了新架构——Ada Lovelace,这是一位女性的名字,她被许多人认为是世界上第一个计算机程序员。
依据黄仁勋介绍,基于Ada Lovelace架构,RTX 40系列在SM多单元处理器等方面都进行了换代升级。
比如SM多单元处理器,性能最高达到90 TFLOPS,吞吐量是上一代Ampere架构的2倍。其中英伟达全新引入了Shader Execution Reordering(着色器执行重排序技术),通过即时重新安排着色器负载来提高执行效率,从而更好地利用GPU资源。依据老黄现场介绍,基于这一改变,RTX 40系列可获得2-3倍的光线追踪性能提升,整体游戏性能提升可高达25%。
再来看RT Core,其拥有了两个全新硬件单元,分别是Opacity Micromap和Micro-Mesh引擎,前者将光线追踪的Alpha-Test几何性能提升2倍,后者可动态生成微网格,在不牺牲性能和存储的前提下产生额外的几何图形以提升丰富度。基于这一升级,RTX 40系列拥有2倍的射线三角形相交吞吐量,有效光线追踪计算能力达到191 TFLOPS,是上一代产品的2.8倍。
此外,黄仁勋还重点介绍了RTX 40系列新引入的DLSS 3.0技术,它包含四项组件,其中最为关键的是新加入的AI帧生成器,可分析两帧连续的游戏图像,并计算帧到帧中物体和元素的运动矢量数据。举个例子,DLSS 3.0可以使原本开启光线追踪后仅为23帧/秒的《赛博朋克2077》以101帧/秒呈现(DLSS 2.0的效果为提升到62帧/秒)。
除了RTX 4090,英伟达在这场发布会上还带来了两个版本RTX 4080,即RTX 4080 16GB和 RTX 4080 12GB,除了内存不同外,16GB版本拥有9728个CUDA核心,12GB版本则是拥有7680个CUDA核心。
至于发布时间与价格:
RTX 4090将于10月12日上市,售价12999元起;
RTX 4080 16GB将于11月上市,售价9499元起;
RTX 4080 12GB将于11月上市,售价7199元起。
是的,相比上一代,涨价了。
Thor:全新自动驾驶芯片,还身兼多职
RTX 40系列之后,老黄紧接着带来的是全新自动驾驶旗舰级芯片“Thor(雷神)”,用黄仁勋的话来说:“Atlan不再是第一了……它将被Thor取代”。
依照英伟达原先规划,单颗算力达到1000 TOPS的Atlan将于2023年向开发者提供样品,并于2025年大规模量产上车。如今来看,Atlan似乎是被砍了,并且主角也由Atlan换成了Thor。
依据介绍,Thor搭载了770亿晶体管,可实现算力2000 TOPS和2000 TFLOPs。而之所以能够做到这点,黄仁勋归纳为三点升级:CPU(Grace)、GPU(Ada Lovelace)和处理Transformer模型的引擎(Hopper)。
其中,Grace是英伟达首款数据中心CPU,主要面向大型数据密集型HPC和AI应用,拥有非常好的单线程性能;Ada Lovelace是英伟达最新的GPU产品,有助于车载计算资源集中化的同时,也将成本降低数百美元;Hopper则提供了Transformer引擎和Vision Transformer的快速变革,可以将深度神经网络的推理性能提高9倍。
值得注意的是,除了性能上的提升,Thor更为令人惊叹的是能够做到“身兼多职”,基于多域计算,不仅能单独负责自动驾驶系统的计算需求,还能将2000 TOPS和2000 TFLOPs分开配置使用,一部分用于驾驶舱AI和信息娱乐系统,另一部分用于自动驾驶。这意味着,你可以在一台计算机上同时运行汽车底层的Linux,辅助驾驶的QNX,智能座舱的安卓等多个操作系统,真正做到了1颗芯片当6颗用。
而为了加快芯片之间的数据传输,英伟达也在Thor中集成了最初为数据中心应用开发的NVLINK连接。
Thor该芯片预计2025年上车。
Jetson Orin Nano:微型机器人系统级模块,速度提升80倍
硬件方面,除了最新消费级GPU RTX 40系列、全新自动驾驶芯Thor,英伟达还带来了一款微型机器人系统级模块芯片Jetson Orin Nano。
依据介绍,相较于3月份发布的Jetson Nano,Jetson Orin Nano的性能大幅提升了约80倍,但是价格相对较低,很可能成为入门级AI边缘设备和机器人开发的新标准。
Orin Nano能够以迄今为止最小的 Jetson 外形尺寸提供高达40 TOPS,采用与英伟达先前宣布的Orin NX兼容的模块,支持具有Ampere架构GPU的AI应用程序管道。
该产品共提供2个版本,售价199美元起:
Orin Nano 8GB,提供高达 40 TOPS 的功率,功率可配置为 7W 至 15W;
Orin Nano 4GB,提供高达 20 TOPS 的功率选项,功率选项低至 5W 至 10W。
最后
整场发布会,英伟达在产品展示上依旧是稳定输出,也再一次向外界告知,英伟达已经不仅仅是一家GPU公司,其业务早已遍布多个领域,并在其中的多个站到了头部的位置。
只不过近一段时间以来,围绕英伟达也是坏消息不断,比如自动驾驶头部企业Cruise宣布着手自研自动驾驶芯片,更是一口气开发四种,背后原因,则是为了降低外购芯片的成本。对于英伟达来说,这并不是一个好消息。
与此同时,曾经亲密的合作伙伴、被外界视为英伟达“亲儿子”的EVGA宣布与其终止合作,不再生产新显卡,又比如以太坊合并,终结了大规模显卡挖矿时代,这一波攻势下,新显卡的销量有待后面市场的考验。其涨价的背后,不知是不是也有着想消耗旧显卡库存的考量。