8月29日消息,英伟达发布了其 Blackwell B200芯片首个MLPerf Inference 4.1测试(在Llama 2 70B大模型上)结果,显示B200的性能是达到了上一代的Hopper H100的4倍,即性能提升了300%。与此同时,AMD也公布了8个MI300X GPU在相同测试中的成绩,达到了与英伟达DGX H100(集成了8个H100)相当的成绩。这也凸显了英伟达在AI芯片市场领导地位。
具体来说,单个英伟达Blackwell B200 GPU 在AI推理测试中,可以每秒生成 10,755 个Token,在离线参考测试中可以每秒生成11,264 个Token。作为对比,虽然基于4个Hopper H100 GPU的服务器提供了接近的结果,但是单个H00 GPU每秒生成的Token数仅有B200 GPU的约1/4。这也证明了英伟达的说法,即单个Blackwell B200 GPU的速度达到了单个Hopper H100 GPU 的约3.7至4倍。但我们需要剖析这些数字以更好地理解它们。
首先,英伟达的Blackwell B200 处理器使用的是 FP4 精度,因为其第五代 Tensor Core 支持该格式,而基于 Hopper 的 H100 则仅支持和使用 FP8。MLPerf 指南允许这些不同的格式,但 Blackwell B200中的 FP4 性能使其相比 FP8 吞吐量翻了一番,因此这是第一个需要注意的重要事项。
接下来,英伟达在使用单个 B200 与四个 H100 GPU对比 方面有些不公平。因为扩展从来都不是完美的,因此单个 GPU 往往是每个 GPU 性能的最佳情况。MLPerf 4.1 没有列出单个 GPU H100 结果,只有一个 B200 结果,因此它们之间的对比并不公平。然而,单个 H200 的性能达到了每秒4,488 个Token,这意味着 B200 在该特定测试中,速度达到了H100的 2.5 倍,即快了150%。
另外,双方之间HBM容量和带宽的差异也是关键因素,并且存在很大的代际差异。经过测试的 B200 GPU 配备 180GB HBM3E 内存,H100 SXM 配备 80GB HBM(某些配置高达 96GB),H200 配备 96GB HBM3 和高达 144GB 的 HBM3E。具有 96GB HBM3 的单个 H200 在离线模式下仅达到了 3,114 个Token/秒。
因此,数字格式、GPU 数量、内存容量和配置存在潜在差异,这些差异会影响“高达 4 倍”的数字。其中许多差异仅仅是因为 Blackwell B200 是一款具有更新架构的新芯片,而所有这些都影响了其最终性能。
回到配备 141GB HBM3E 内存的英伟达H200,它不仅在以 Llama 2 70B 大型语言模型为特色的生成式 AI 基准测试中也表现出色,而且在数据中心类别的每一项测试中都表现出色。出于显而易见的原因,在利用 GPU 内存容量的测试中,它的速度明显快于 H100。
再来看,AMD公布的MLPerf Inference 4.1测试(在Llama 2 70B大模型上)中其MI300X的成绩。搭配AMD Genoa CPU及8个MI300X的服务器在该AI推理测试中,性能达到了每秒21028个Token,而在离线参考测试中,性能达到了每秒223514个Token;其搭配AMD Turin CPU及8个MI300X的服务器在AI推理测试中,性能达到了每秒22021个Token,在离线参考测试中,性能达到了24110个Token。
可以看到,这些测试当中,8卡的MI300X系统达到了接近英伟达DGX H100系统的成绩,差异大概在2-3%以内。如果看单个MI300X GPU的性能,在服务器中每秒生成2520个Token,离线测试中每秒可生成3062个Token,达到了与英伟达H100 GPU相当的水平。
综合比较单个AMD MI300X与英伟达H200和B200的MLPerf Inference 4.1测试(在Llama 2 70B大模型上)测试成绩来看,英伟达B200的成绩也是遥遥领先于MI300X和H200,其性能平均达到了MI300X的4倍左右,也达到了H200的约2.5倍左右。这也进一步凸显了英伟达B200性能的领先性。
同样需要指出的是,AMD MI300X配备了更大的192GB HBM,而B200则是180GB HBM,当然,MI300X的TDP功耗要更低,为750W。而英伟达H200和B200的TDP功耗则高达1000W。
编辑:芯智讯-浪客剑