拿下Meta，AMD进军元宇宙！全新GPU=4.9个A100，但不支持CUDA

新智元报道

编辑：好困小咸鱼

【新智元导读】AMD周一发布了最新一代数据中心GPU Instinct MI200加速器，性能最高提升了4.9倍。并推出了首款采用3D Chiplet技术的服务器CPU Milan-X。此外，AMD还拿下了元宇宙公司Meta数据中心这一大单，当天AMD股价上涨最高超过13%。

AMD又要Yes了！

11月8号，AMD宣布拿下Facebook母公司Meta的数据中心这个大单，这也意味着Meta的新数据中心中会使用AMD的EPYC处理器。

此消息一出，AMD的股价最高涨幅13%，市值突破1800亿美元，创下历史新高。

上周五收盘时，AMD的股价今年已经涨了快50%，而在过去两年里，AMD的股价每年都上涨一倍。

在x86处理器芯片市场上，AMD多年来一直落后于英特尔，但自2017年以来，AMD稳步扩大了市场份额，现在拥有x86芯片近四分之一的市场份额。

AMD最近一个季度数据中心芯片的销售额同比增长了一倍，占AMD销售额的20%。

其实，在Meta选择成为AMD的客户之前，谷歌、亚马逊、微软、IBM等等美国科技公司，还有国内的阿里、腾讯、百度三家都选择了AMD的芯片来构建自己的云服务平台。

在AMD上一代EPYC服务器CPU——Milan广受好评后，这一次，AMD带着全新的诚意再次亮相。

EPYC Milan-X

这一代的EPYC服务器CPU名为Milan-X，由四款处理器组成。

EPYC 7773X有64个内核和128个线程，EPYC 7573X有32个内核和128个线程，EPYC 7473X有24个内核和48个线程，而EPYC 7373X有16个内核和32个线程。

Processor	Cores/Threads	Base Clock	Boost Clock	TDP	L3 Cache (L3 3D V-Cache)
Epyc 7773X	64/128	2.2 GHz	3.5 GHz	280 W	768 MB
Epyc 7573X	32/64	2.8 GHz	3.6 GHz	280 W	768 MB
Epyc 7473X	24/48	2.8 GHz	3.7 GHz	240 W	768 MB
Epyc 7373X	16/32	3.05 GHz	3.8 GHz	240 W	768 MB

Milan-X是世界上第一款使用3D V-Cache垂直小芯片堆叠技术的服务器芯片。

相较于2D芯片堆叠技术，AMD全新的3D垂直小芯片堆叠技术可以将芯片内互连密度提升超过200倍。

相较于「Micro Bump 3D」的3D堆叠技术，AMD的方案依然可以将互连密度提升超过15倍，互联能耗效率提升超过3倍，这些都使其成为最灵活的主动式硅堆叠技术。

Milan-X最高配置64个内核，每个芯片的L3缓存直接暴涨3倍，总量达到平均768MB，最高可至804MB。这意味着双插槽服务器系统中的L3缓存可能会达到令人瞠目结舌的1.5GB。

同时，EPYC Milan-X依旧可以被放入前代EPYC服务器的SP3插座中（需要更新BIOS），这无疑会大大减少鉴定时间，加快上市时间。

AMD还分享了几个受益于Milan-X的工作负载的例子，并且获得「平均超过50%性能提升」这样一个令人印象深刻的测试结果。

此外，AMD表示，32核的Milan-X就可以为包括计算流体力学（CFD）、有限元分析（FEA）、结构分析（SA）和电子设计自动化（EDA）等领域提供大约30%至40%的性能增益。

MI200=4.9×A100

英伟达在GPU市场的领先地位一直是不可撼动的，而这次，AMD还真要挑战一下。

AMD曾经发布过专为机器学习和高性能计算优化的GPU架构：CDNA，采用7nm制程和第二代Infinity架构。

在当时，采用CDNA架构的AMD Instinct MI100就已经可以达到11.5TFlops的算力，也是当时第一个超过10TFlops（FP64）的数据中心GPU。

而在11月8号的发布会上，AMD推出全新的CDNA 2 GPU架构和MI200 Instinct图形处理器，要与英伟达的A100芯片一较高下。

CDNA 2 GPU架构将使用台积电的N6节点工艺，虽然只是工艺技术上一个小的演进，但确实有了更高的时钟效率。此外，N6的设计规则也与N7兼容，也就是说N7上的设计可以相对容易地移植到N6上。

同时，CDNA 2 GPU采用最新的第三代Infinity架构，专为超大规模而生。

MI200是MI100的更新迭代版本，基于CDNA 2架构，相对于MI100的第一个重大变化是采用了多芯片封装。

MI200芯片将包含多达580亿个晶体管，相比之下，Nvidia的A100在一个GPU核心中拥有542亿个晶体管。

根据AMD发布的规格，MI200的时钟频率将高达1.7GHz，而MI100的时钟频率为1.5GHz。内存也升级为HBM2e，运行速度为3.2Gbps，结合双芯片GPU布局意味着MI200的整体带宽从1.2TBps增加到3.2TBps。

MI100是第一个提供超过10TFLOPS的FP64向量计算的GPU，凭借其更高的时钟、双GPU和加倍的FP64速率，MI200的FP64向量峰值速率为47.9TFLOPS。比Nvidia A100的FP64向量计算的速率快了4.9倍。

MI200还增加了FP64矩阵的支持，其峰值速率是向量单元速率的两倍：95.7TFLOPS。同样，较Nvidia A100的FP64向量性能19.5TFLOPS，也提升4.9倍。

在FP16方面，AMD的表现相对没那么夸张了，Nvidia的A100的FP16/BF16算力为312TFLOPS，而MI200为383TFLOPS。

由于Nvidia的稀疏性允许GPU跳过一些操作，特别是乘以0这个操作。因此，在部分情况下，A100的计算性能可以提高一倍，并在性能上保持领先。

当然，这些只是纸面上的数据。

由于AMD的MI200是通过自家的ROCm来支持TensorFlow、PyTorch和ONNX等机器学习框架，并没有CUDA，所以在可用性上，还需要留一个问号。

目前MI200 OAM有两种型号，性能较高的MI250X每个芯片有110个CU，而较低的MI250则下降到每个芯片104个CU，因此，MI250的计算性能会降低了大约5%。

此外，之后AMD还将推出一个PCIe版本的MI200。

不过，还有一些关键信息仍然是缺失的，比如电源要求。Nvidia A100的SXM型号的TDP为400W，这将对MI200 OAM的带来一定的压力，因为有传言说MI250 OEM的TDP可能高达550W。

Zen 4路线图

AMD还公布了新一代Zen 4的进展。

新的第四代EYPC处理器包括，采用5纳米制程的96核的Genoa，以及同样采用5纳米工艺都128核Bergamo。

Genoa采用「Zen 4」内核，而AMD为Bergamo配备了一种新型的「Zen 4c」内核，针对云原生这种特殊的使用情况进行了优化，这意味着AMD的Zen 4芯片将配备两种类型的内核。

相比于前一代EPYC Milan芯片的7纳米工艺，全新的5纳米制程将提供高达2倍的密度和功率效率，以及1.25倍的性能提升。

这么看来，消费级的Ryzen Zen 4芯片应该也可以得到相似的提升。

Genoa

先来看看采用Zen 4架构的Genoa芯片。

EPYC Genoa芯片将有多达96个Zen 4内核，支持DDR5和PCIe 5.0，以及允许设备间连贯内存连接的CXL 1.1接口。

这款芯片将解决HPC和通用数据中心、企业和云计算工作负载的问题，并将扩展每核和多线程性能。

Bergamo

同样，Bergamo也是基于5纳米工艺，每颗芯片将有多达128个内核。

为了更好地适应云原生计算的工作负载，AMD推出了一种新全新的Zen 4内核——「Zen 4c」。

Zen 4c与Zen 4兼容，并使用相同的指令集和插槽。也就是说可以无缝地将Bergamo芯片放入搭载了Genoa的服务器中。

由于去掉了某些不需要的功能，Zen 4c的核心会比标准Zen 4要小，但计算密度将会得到提升。

此外，Zen 4c拥有一个经过密度优化的缓存层次结构，以增加核心数量，从而解决需要更高线程密度的云工作负载。

Infinity架构3.0

这次，AMD除了发布Genoa、Bergamo、3D V-Cache驱动的Milan-X和Instinct MI200 MCM（多芯片模块）GPU之外，还有一个关键的元素——贯穿所有这些技术的Infinity Fabric 3.0。

Infinity Fabric可以说是AMD异构系统架构（HSA）系统梦想的延伸，为AMD的CPU和GPU解决方案上的芯片内和芯片间通信提供动力。

Infinity架构聚合了AMD在新产品上采用的多种互连技术，并最终形成了一种连贯的CPU GPU技术，极大地提高系统性能（特别是HPC性能）。

2020年，AMD推出Infinity起因其实很简单：在计算中移动数据的开销是巨大的。

而Infinity架构将尽可能地减少存储库（无论是VRAM、系统RAM还是CPU缓存）之间的数据移动。

如果硬件能知道信息都在哪里，并能在「需要」时进行访问，就可以实现巨大的性能提升。

于是，新的Infinity架构可以让Epyc CPU和Instinct GPU加速器之间进行一致的通信。

有了Infinity架构，AMD不再需要回避PCIe 4.0的带宽限制，而且可以连接的GPU数量增加到8个。

增加带宽，减少延迟，以及通过减少数据移动提高效率，是AMD Infinity架构设计的支柱。

上一代Infinity Fabric架构迫使CPU和GPU之间的通信通过PCIe总线完成（非一致性），这意味着理论峰值带宽将无法超过该链路的极限（PCIe 4.0的16 GT/s）。此外，双插槽系统中能够通过PCIe互连的GPU的最大数量也被限制在了4块。

而新的Infinity架构使整个通信过程可以基于Infinity Fabric 3.0链路来完成，这意味着无需进行PCIe非相干通信，当然在需要时也可以回退到PCIe。

此外，显卡之间的对话速度也得到了极大的改善，其中每个Infinity Fabric链接的带宽为100 GB/s，能提供足够的吞吐量来支持整个系统。

怎么样，你觉得AMD这次Yes了吗？

参考资料：

https://www.zdnet.com/article/amd-rolls-out-instinct-mi200-gpus-for-hpc-and-ai-workloads/

https://www.reuters.com/technology/amd-lands-meta-customer-takes-aim-nvidia-with-new-supercomputing-chips-2021-11-08/ https://www.tomshardware.com/news/amd-unveils-zen-4-cpu-roadmap-96-core-5nm-genoa-128-core-begamo

https://www.youtube.com/watch?v=ECHhuvuiNzs&list=PLx15eYqzJifc9P7wwwQ9mKwtl7_pKrvf5

硬件开发图像处理 cdn

0 人点赞