新智元报道
编辑:好困 小咸鱼
【新智元导读】AMD周一发布了最新一代数据中心GPU Instinct MI200加速器,性能最高提升了4.9倍。并推出了首款采用3D Chiplet技术的服务器CPU Milan-X。此外,AMD还拿下了元宇宙公司Meta数据中心这一大单,当天AMD股价上涨最高超过13%。
AMD又要Yes了!
11月8号,AMD宣布拿下Facebook母公司Meta的数据中心这个大单,这也意味着Meta的新数据中心中会使用AMD的EPYC处理器。
此消息一出,AMD的股价最高涨幅13%,市值突破1800亿美元,创下历史新高。
上周五收盘时,AMD的股价今年已经涨了快50%,而在过去两年里,AMD的股价每年都上涨一倍。
在x86处理器芯片市场上,AMD多年来一直落后于英特尔,但自2017年以来,AMD稳步扩大了市场份额,现在拥有x86芯片近四分之一的市场份额。
AMD最近一个季度数据中心芯片的销售额同比增长了一倍,占AMD销售额的20%。
其实,在Meta选择成为AMD的客户之前,谷歌、亚马逊、微软、IBM等等美国科技公司,还有国内的阿里、腾讯、百度三家都选择了AMD的芯片来构建自己的云服务平台。
在AMD上一代EPYC服务器CPU——Milan广受好评后,这一次,AMD带着全新的诚意再次亮相。
EPYC Milan-X
这一代的EPYC服务器CPU名为Milan-X,由四款处理器组成。
EPYC 7773X有64个内核和128个线程,EPYC 7573X有32个内核和128个线程,EPYC 7473X有24个内核和48个线程,而EPYC 7373X有16个内核和32个线程。
Processor | Cores/Threads | Base Clock | Boost Clock | TDP | L3 Cache (L3 3D V-Cache) |
---|---|---|---|---|---|
Epyc 7773X | 64/128 | 2.2 GHz | 3.5 GHz | 280 W | 768 MB |
Epyc 7573X | 32/64 | 2.8 GHz | 3.6 GHz | 280 W | 768 MB |
Epyc 7473X | 24/48 | 2.8 GHz | 3.7 GHz | 240 W | 768 MB |
Epyc 7373X | 16/32 | 3.05 GHz | 3.8 GHz | 240 W | 768 MB |
Milan-X是世界上第一款使用3D V-Cache垂直小芯片堆叠技术的服务器芯片。
相较于2D芯片堆叠技术,AMD全新的3D垂直小芯片堆叠技术可以将芯片内互连密度提升超过200倍。
相较于「Micro Bump 3D」的3D堆叠技术,AMD的方案依然可以将互连密度提升超过15倍,互联能耗效率提升超过3倍,这些都使其成为最灵活的主动式硅堆叠技术。
Milan-X最高配置64个内核,每个芯片的L3缓存直接暴涨3倍,总量达到平均768MB,最高可至804MB。这意味着双插槽服务器系统中的L3缓存可能会达到令人瞠目结舌的1.5GB。
同时,EPYC Milan-X依旧可以被放入前代EPYC服务器的SP3插座中(需要更新BIOS),这无疑会大大减少鉴定时间,加快上市时间。
AMD还分享了几个受益于Milan-X的工作负载的例子,并且获得「平均超过50%性能提升」这样一个令人印象深刻的测试结果。
此外,AMD表示,32核的Milan-X就可以为包括计算流体力学(CFD)、有限元分析(FEA)、结构分析(SA)和电子设计自动化(EDA)等领域提供大约30%至40%的性能增益。
MI200=4.9×A100
英伟达在GPU市场的领先地位一直是不可撼动的,而这次,AMD还真要挑战一下。
AMD曾经发布过专为机器学习和高性能计算优化的GPU架构:CDNA,采用7nm制程和第二代Infinity架构。
在当时,采用CDNA架构的AMD Instinct MI100就已经可以达到11.5TFlops的算力,也是当时第一个超过10TFlops(FP64)的数据中心GPU。
而在11月8号的发布会上,AMD推出全新的CDNA 2 GPU架构和MI200 Instinct图形处理器,要与英伟达的A100芯片一较高下。
CDNA 2 GPU架构将使用台积电的N6节点工艺,虽然只是工艺技术上一个小的演进,但确实有了更高的时钟效率。此外,N6的设计规则也与N7兼容,也就是说N7上的设计可以相对容易地移植到N6上。
同时,CDNA 2 GPU采用最新的第三代Infinity架构,专为超大规模而生。
MI200是MI100的更新迭代版本,基于CDNA 2架构,相对于MI100的第一个重大变化是采用了多芯片封装。
MI200芯片将包含多达580亿个晶体管,相比之下,Nvidia的A100在一个GPU核心中拥有542亿个晶体管。
根据AMD发布的规格,MI200的时钟频率将高达1.7GHz,而MI100的时钟频率为1.5GHz。内存也升级为HBM2e,运行速度为3.2Gbps,结合双芯片GPU布局意味着MI200的整体带宽从1.2TBps增加到3.2TBps。
MI100是第一个提供超过10TFLOPS的FP64向量计算的GPU,凭借其更高的时钟、双GPU和加倍的FP64速率,MI200的FP64向量峰值速率为47.9TFLOPS。比Nvidia A100的FP64向量计算的速率快了4.9倍。
MI200还增加了FP64矩阵的支持,其峰值速率是向量单元速率的两倍:95.7TFLOPS。同样,较Nvidia A100的FP64向量性能19.5TFLOPS,也提升4.9倍。
在FP16方面,AMD的表现相对没那么夸张了,Nvidia的A100的FP16/BF16算力为312TFLOPS,而MI200为383TFLOPS。
由于Nvidia的稀疏性允许GPU跳过一些操作,特别是乘以0这个操作。因此,在部分情况下,A100的计算性能可以提高一倍,并在性能上保持领先。
当然,这些只是纸面上的数据。
由于AMD的MI200是通过自家的ROCm来支持TensorFlow、PyTorch和ONNX等机器学习框架,并没有CUDA,所以在可用性上,还需要留一个问号。
目前MI200 OAM有两种型号,性能较高的MI250X每个芯片有110个CU,而较低的MI250则下降到每个芯片104个CU,因此,MI250的计算性能会降低了大约5%。
此外,之后AMD还将推出一个PCIe版本的MI200。
不过,还有一些关键信息仍然是缺失的,比如电源要求。Nvidia A100的SXM型号的TDP为400W,这将对MI200 OAM的带来一定的压力,因为有传言说MI250 OEM的TDP可能高达550W。
Zen 4路线图
AMD还公布了新一代Zen 4的进展。
新的第四代EYPC处理器包括,采用5纳米制程的96核的Genoa,以及同样采用5纳米工艺都128核Bergamo。
Genoa采用「Zen 4」内核,而AMD为Bergamo配备了一种新型的「Zen 4c」内核,针对云原生这种特殊的使用情况进行了优化,这意味着AMD的Zen 4芯片将配备两种类型的内核。
相比于前一代EPYC Milan芯片的7纳米工艺,全新的5纳米制程将提供高达2倍的密度和功率效率,以及1.25倍的性能提升。
这么看来,消费级的Ryzen Zen 4芯片应该也可以得到相似的提升。
Genoa
先来看看采用Zen 4架构的Genoa芯片。
EPYC Genoa芯片将有多达96个Zen 4内核,支持DDR5和PCIe 5.0,以及允许设备间连贯内存连接的CXL 1.1接口。
这款芯片将解决HPC和通用数据中心、企业和云计算工作负载的问题,并将扩展每核和多线程性能。
Bergamo
同样,Bergamo也是基于5纳米工艺,每颗芯片将有多达128个内核。
为了更好地适应云原生计算的工作负载,AMD推出了一种新全新的Zen 4内核——「Zen 4c」。
Zen 4c与Zen 4兼容,并使用相同的指令集和插槽。也就是说可以无缝地将Bergamo芯片放入搭载了Genoa的服务器中。
由于去掉了某些不需要的功能,Zen 4c的核心会比标准Zen 4要小,但计算密度将会得到提升。
此外,Zen 4c拥有一个经过密度优化的缓存层次结构,以增加核心数量,从而解决需要更高线程密度的云工作负载。
Infinity架构3.0
这次,AMD除了发布Genoa、Bergamo、3D V-Cache驱动的Milan-X和Instinct MI200 MCM(多芯片模块)GPU之外,还有一个关键的元素——贯穿所有这些技术的Infinity Fabric 3.0。
Infinity Fabric可以说是AMD异构系统架构(HSA)系统梦想的延伸,为AMD的CPU和GPU解决方案上的芯片内和芯片间通信提供动力。
Infinity架构聚合了AMD在新产品上采用的多种互连技术,并最终形成了一种连贯的CPU GPU技术,极大地提高系统性能(特别是HPC性能)。
2020年,AMD推出Infinity起因其实很简单:在计算中移动数据的开销是巨大的。
而Infinity架构将尽可能地减少存储库(无论是VRAM、系统RAM还是CPU缓存)之间的数据移动。
如果硬件能知道信息都在哪里,并能在「需要」时进行访问,就可以实现巨大的性能提升。
于是,新的Infinity架构可以让Epyc CPU和Instinct GPU加速器之间进行一致的通信。
有了Infinity架构,AMD不再需要回避PCIe 4.0的带宽限制,而且可以连接的GPU数量增加到8个。
增加带宽,减少延迟,以及通过减少数据移动提高效率,是AMD Infinity架构设计的支柱。
上一代Infinity Fabric架构迫使CPU和GPU之间的通信通过PCIe总线完成(非一致性),这意味着理论峰值带宽将无法超过该链路的极限(PCIe 4.0的16 GT/s)。此外,双插槽系统中能够通过PCIe互连的GPU的最大数量也被限制在了4块。
而新的Infinity架构使整个通信过程可以基于Infinity Fabric 3.0链路来完成,这意味着无需进行PCIe非相干通信,当然在需要时也可以回退到PCIe。
此外,显卡之间的对话速度也得到了极大的改善,其中每个Infinity Fabric链接的带宽为100 GB/s,能提供足够的吞吐量来支持整个系统。
怎么样,你觉得AMD这次Yes了吗?
参考资料:
https://www.zdnet.com/article/amd-rolls-out-instinct-mi200-gpus-for-hpc-and-ai-workloads/
https://www.reuters.com/technology/amd-lands-meta-customer-takes-aim-nvidia-with-new-supercomputing-chips-2021-11-08/ https://www.tomshardware.com/news/amd-unveils-zen-4-cpu-roadmap-96-core-5nm-genoa-128-core-begamo
https://www.youtube.com/watch?v=ECHhuvuiNzs&list=PLx15eYqzJifc9P7wwwQ9mKwtl7_pKrvf5