拿下Meta,AMD进军元宇宙!全新GPU=4.9个A100,但不支持CUDA

2021-11-15 16:51:30 浏览数 (1)


新智元报道

编辑:好困 小咸鱼

【新智元导读】AMD周一发布了最新一代数据中心GPU Instinct MI200加速器,性能最高提升了4.9倍。并推出了首款采用3D Chiplet技术的服务器CPU Milan-X。此外,AMD还拿下了元宇宙公司Meta数据中心这一大单,当天AMD股价上涨最高超过13%。

AMD又要Yes了!

11月8号,AMD宣布拿下Facebook母公司Meta的数据中心这个大单,这也意味着Meta的新数据中心中会使用AMD的EPYC处理器。

此消息一出,AMD的股价最高涨幅13%,市值突破1800亿美元,创下历史新高。

上周五收盘时,AMD的股价今年已经涨了快50%,而在过去两年里,AMD的股价每年都上涨一倍。

在x86处理器芯片市场上,AMD多年来一直落后于英特尔,但自2017年以来,AMD稳步扩大了市场份额,现在拥有x86芯片近四分之一的市场份额。

AMD最近一个季度数据中心芯片的销售额同比增长了一倍,占AMD销售额的20%。

其实,在Meta选择成为AMD的客户之前,谷歌、亚马逊、微软、IBM等等美国科技公司,还有国内的阿里、腾讯、百度三家都选择了AMD的芯片来构建自己的云服务平台。

在AMD上一代EPYC服务器CPU——Milan广受好评后,这一次,AMD带着全新的诚意再次亮相。

EPYC Milan-X

这一代的EPYC服务器CPU名为Milan-X,由四款处理器组成。

EPYC 7773X有64个内核和128个线程,EPYC 7573X有32个内核和128个线程,EPYC 7473X有24个内核和48个线程,而EPYC 7373X有16个内核和32个线程。

Processor

Cores/Threads

Base Clock

Boost Clock

TDP

L3 Cache (L3 3D V-Cache)

Epyc 7773X

64/128

2.2 GHz

3.5 GHz

280 W

768 MB

Epyc 7573X

32/64

2.8 GHz

3.6 GHz

280 W

768 MB

Epyc 7473X

24/48

2.8 GHz

3.7 GHz

240 W

768 MB

Epyc 7373X

16/32

3.05 GHz

3.8 GHz

240 W

768 MB

Milan-X是世界上第一款使用3D V-Cache垂直小芯片堆叠技术的服务器芯片。

相较于2D芯片堆叠技术,AMD全新的3D垂直小芯片堆叠技术可以将芯片内互连密度提升超过200倍。

相较于「Micro Bump 3D」的3D堆叠技术,AMD的方案依然可以将互连密度提升超过15倍,互联能耗效率提升超过3倍,这些都使其成为最灵活的主动式硅堆叠技术。

Milan-X最高配置64个内核,每个芯片的L3缓存直接暴涨3倍,总量达到平均768MB,最高可至804MB。这意味着双插槽服务器系统中的L3缓存可能会达到令人瞠目结舌的1.5GB。

同时,EPYC Milan-X依旧可以被放入前代EPYC服务器的SP3插座中(需要更新BIOS),这无疑会大大减少鉴定时间,加快上市时间。

AMD还分享了几个受益于Milan-X的工作负载的例子,并且获得「平均超过50%性能提升」这样一个令人印象深刻的测试结果。

此外,AMD表示,32核的Milan-X就可以为包括计算流体力学(CFD)、有限元分析(FEA)、结构分析(SA)和电子设计自动化(EDA)等领域提供大约30%至40%的性能增益。

MI200=4.9×A100

英伟达在GPU市场的领先地位一直是不可撼动的,而这次,AMD还真要挑战一下。

AMD曾经发布过专为机器学习和高性能计算优化的GPU架构:CDNA,采用7nm制程和第二代Infinity架构。

在当时,采用CDNA架构的AMD Instinct MI100就已经可以达到11.5TFlops的算力,也是当时第一个超过10TFlops(FP64)的数据中心GPU。

而在11月8号的发布会上,AMD推出全新的CDNA 2 GPU架构和MI200 Instinct图形处理器,要与英伟达的A100芯片一较高下。

CDNA 2 GPU架构将使用台积电的N6节点工艺,虽然只是工艺技术上一个小的演进,但确实有了更高的时钟效率。此外,N6的设计规则也与N7兼容,也就是说N7上的设计可以相对容易地移植到N6上。

同时,CDNA 2 GPU采用最新的第三代Infinity架构,专为超大规模而生。

MI200是MI100的更新迭代版本,基于CDNA 2架构,相对于MI100的第一个重大变化是采用了多芯片封装。

MI200芯片将包含多达580亿个晶体管,相比之下,Nvidia的A100在一个GPU核心中拥有542亿个晶体管。

根据AMD发布的规格,MI200的时钟频率将高达1.7GHz,而MI100的时钟频率为1.5GHz。内存也升级为HBM2e,运行速度为3.2Gbps,结合双芯片GPU布局意味着MI200的整体带宽从1.2TBps增加到3.2TBps。

MI100是第一个提供超过10TFLOPS的FP64向量计算的GPU,凭借其更高的时钟、双GPU和加倍的FP64速率,MI200的FP64向量峰值速率为47.9TFLOPS。比Nvidia A100的FP64向量计算的速率快了4.9倍。

MI200还增加了FP64矩阵的支持,其峰值速率是向量单元速率的两倍:95.7TFLOPS。同样,较Nvidia A100的FP64向量性能19.5TFLOPS,也提升4.9倍。

在FP16方面,AMD的表现相对没那么夸张了,Nvidia的A100的FP16/BF16算力为312TFLOPS,而MI200为383TFLOPS。

由于Nvidia的稀疏性允许GPU跳过一些操作,特别是乘以0这个操作。因此,在部分情况下,A100的计算性能可以提高一倍,并在性能上保持领先。

当然,这些只是纸面上的数据。

由于AMD的MI200是通过自家的ROCm来支持TensorFlow、PyTorch和ONNX等机器学习框架,并没有CUDA,所以在可用性上,还需要留一个问号。

目前MI200 OAM有两种型号,性能较高的MI250X每个芯片有110个CU,而较低的MI250则下降到每个芯片104个CU,因此,MI250的计算性能会降低了大约5%。

此外,之后AMD还将推出一个PCIe版本的MI200。

不过,还有一些关键信息仍然是缺失的,比如电源要求。Nvidia A100的SXM型号的TDP为400W,这将对MI200 OAM的带来一定的压力,因为有传言说MI250 OEM的TDP可能高达550W。

Zen 4路线图

AMD还公布了新一代Zen 4的进展。

新的第四代EYPC处理器包括,采用5纳米制程的96核的Genoa,以及同样采用5纳米工艺都128核Bergamo。

Genoa采用「Zen 4」内核,而AMD为Bergamo配备了一种新型的「Zen 4c」内核,针对云原生这种特殊的使用情况进行了优化,这意味着AMD的Zen 4芯片将配备两种类型的内核。

相比于前一代EPYC Milan芯片的7纳米工艺,全新的5纳米制程将提供高达2倍的密度和功率效率,以及1.25倍的性能提升。

这么看来,消费级的Ryzen Zen 4芯片应该也可以得到相似的提升。

Genoa

先来看看采用Zen 4架构的Genoa芯片。

EPYC Genoa芯片将有多达96个Zen 4内核,支持DDR5和PCIe 5.0,以及允许设备间连贯内存连接的CXL 1.1接口。

这款芯片将解决HPC和通用数据中心、企业和云计算工作负载的问题,并将扩展每核和多线程性能。

Bergamo

同样,Bergamo也是基于5纳米工艺,每颗芯片将有多达128个内核。

为了更好地适应云原生计算的工作负载,AMD推出了一种新全新的Zen 4内核——「Zen 4c」。

Zen 4c与Zen 4兼容,并使用相同的指令集和插槽。也就是说可以无缝地将Bergamo芯片放入搭载了Genoa的服务器中。

由于去掉了某些不需要的功能,Zen 4c的核心会比标准Zen 4要小,但计算密度将会得到提升。

此外,Zen 4c拥有一个经过密度优化的缓存层次结构,以增加核心数量,从而解决需要更高线程密度的云工作负载。

Infinity架构3.0

这次,AMD除了发布Genoa、Bergamo、3D V-Cache驱动的Milan-X和Instinct MI200 MCM(多芯片模块)GPU之外,还有一个关键的元素——贯穿所有这些技术的Infinity Fabric 3.0。

Infinity Fabric可以说是AMD异构系统架构(HSA)系统梦想的延伸,为AMD的CPU和GPU解决方案上的芯片内和芯片间通信提供动力。

Infinity架构聚合了AMD在新产品上采用的多种互连技术,并最终形成了一种连贯的CPU GPU技术,极大地提高系统性能(特别是HPC性能)。

2020年,AMD推出Infinity起因其实很简单:在计算中移动数据的开销是巨大的。

而Infinity架构将尽可能地减少存储库(无论是VRAM、系统RAM还是CPU缓存)之间的数据移动。

如果硬件能知道信息都在哪里,并能在「需要」时进行访问,就可以实现巨大的性能提升。

于是,新的Infinity架构可以让Epyc CPU和Instinct GPU加速器之间进行一致的通信。

有了Infinity架构,AMD不再需要回避PCIe 4.0的带宽限制,而且可以连接的GPU数量增加到8个。

增加带宽,减少延迟,以及通过减少数据移动提高效率,是AMD Infinity架构设计的支柱。

上一代Infinity Fabric架构迫使CPU和GPU之间的通信通过PCIe总线完成(非一致性),这意味着理论峰值带宽将无法超过该链路的极限(PCIe 4.0的16 GT/s)。此外,双插槽系统中能够通过PCIe互连的GPU的最大数量也被限制在了4块。

而新的Infinity架构使整个通信过程可以基于Infinity Fabric 3.0链路来完成,这意味着无需进行PCIe非相干通信,当然在需要时也可以回退到PCIe。

此外,显卡之间的对话速度也得到了极大的改善,其中每个Infinity Fabric链接的带宽为100 GB/s,能提供足够的吞吐量来支持整个系统。

怎么样,你觉得AMD这次Yes了吗?

参考资料:

https://www.zdnet.com/article/amd-rolls-out-instinct-mi200-gpus-for-hpc-and-ai-workloads/

https://www.reuters.com/technology/amd-lands-meta-customer-takes-aim-nvidia-with-new-supercomputing-chips-2021-11-08/ https://www.tomshardware.com/news/amd-unveils-zen-4-cpu-roadmap-96-core-5nm-genoa-128-core-begamo

https://www.youtube.com/watch?v=ECHhuvuiNzs&list=PLx15eYqzJifc9P7wwwQ9mKwtl7_pKrvf5

0 人点赞