首次集成HBM内存,英特尔发布Xeon Max CPU!还有全新Max系列GPU

2022-11-22 12:00:28 浏览数 (1)

11月10日消息,英特尔今天正式推出了全球首款配备 HBM 内存的 x86 CPU——Intel Xeon Max 系列CPU,其基于代号Sapphire Rapids-HBM芯片构建。同时,英特尔还推出了基于Ponte Vecchio构建的全新MAX系列GPU。英特尔表示,新产品将为美国能源部阿贡国家实验室的Aurora超级计算机提供动力。

Xeon MAX CPU

新Xeon MAX CPU中的 56 个内核均为 P 核,可提供 112 个线程和 350W TDP。它采用基于 EMIB 的设计,分为四个集群。但最有趣的是,它还具有 64 GB 的 HBM2e 内存,分为 4 个 16 GB 的集群,总内存带宽为 1 TB / s,每个内核的 HBM 都超过 1 GB。

英特尔还表示,HBM 内存的集成不需要更改代码,并且应该对用户实现无缝透明。

英特尔公司副总裁兼超级计算集团总经理 jeff McVeigh表示:“为了确保没有 HPC 工作负载掉队,我们需要一个能够将带宽、计算、生产力最大化并最终可使得影响最大化的解决方案。英特尔 Max 系列产品系列为更广阔的市场带来了高带宽内存,以及一个 API,使 CPU 和 GPU 之间的代码共享更容易,并更有效地解决世界上最大的挑战。

据介绍,这 56 个内核由四个 Die 构成,并使用英特尔的多芯片互连桥 (EMIB) 进行连接,其中封装了 64GB HBM 内存,该平台将采用 PCIe 5.0 和 CXL 1.1 I / O 接口。

  • 在 HCPG 性能相同的情况下,功耗比 AMD Milan-X 集群低 68%。
  • AMX 扩展可提高 AI 性能,并为 INT8 和 INT32 累积操作提供比 AVX-512 高 8 倍的峰值吞吐量。
  • 提供在不同 HBM 和 DDR 内存配置中运行的灵活性。

工作负载基准:

  • 气候建模:仅使用 HBM 在 MPAS-A 上比 AMD Milan-X 快 2.4 倍。
  • 分子动力学:在 DeePMD 上,与具有 DDR5 内存的竞争产品相比,性能提高了 2.8 倍。

在性能方面,英特尔称,Xeon Max配备的高带宽内存足以满足最常见的HPC工作负载,与旧的英特尔至强 8380 系列处理器或 AMD EPYC 7773X 相比,可在某些工作负载中提供接近 5 倍的性能。

新 CPU 中还包含 20 个加速引擎,主要是用于 AVX-512、AMX、DSA 和英特尔 DL Boost 工作负载。据称,英特尔在 MLPerf DeepCAM 训练中的性能比 AMD 7763 提升了 3.6 倍,比 NVIDIA 的 A100 提升了 1.2 倍。

MAX系列GPU

MAX系列GPU采用了Xe-HPC架构的计算芯片,是唯一具有原生光线追踪加速功能的HPC/AI GPU,旨在加速科学可视化,是针对要求最苛刻的计算工作负载的新基础架构。其拥有64MB的L1缓存和408MB的L2缓存(业界最高),提高了可吞吐量和性能。

根据英特尔过往的介绍,MAX系列GPU所采用的Ponte Vecchio芯片,是英特尔首个百亿亿次级计算GPU,使用了英特尔有史以来最先进的封装技术,拥有超过1000亿个晶体管。其总共有63个模块,包括了16个Xe-HPG架构的计算芯片、8个Rambo cache芯片、2个Xe基础芯片、11个EMIB连接芯片、2个Xe Link I/O芯片和8个HBM芯片、以及16个负责TDP输出的模块,通过EMIB与Foveros 3D封装中整合在一起。

MAX系列GPU提供了多种外形尺寸,以满足不同客户的需求,分别有:

  • MAX 1100 - 双槽PCIe外形,56个Xe核心和48GB的HBM2e显存,克通过英特尔Xe Link桥接器实现多卡连接,TDP为300W。
  • MAX 1350 - OAM模块,112个Xe核心和96GB的HBM2e显存,TDP为450W。
  • MAX 1550 - 英特尔性能最高的OAM模块,128个Xe核心和128GB的HBM2e显存,TDP为600W。

除了PCIe单卡和OAM模块以外,英特尔还提供了x4 GPU OAM载板和英特尔数据中心GPU Max系列子系统,以实现子系统内的高性能多GPU通信。

据介绍,英特尔Xeon Max CPU 将在 Aurora 超级计算机中首次亮相,目前正在阿贡国家实验室建造。Aurora 有望成为第一台超过 2 exaflops 峰值双精度计算性能的超级计算机。

此外,Aurora 还将率先展示在单个系统中将 Max 系列 GPU 和 CPU 配对的强大功能,拥有超过 10000 个“刀片”,每个“刀片”包含六个 Max 系列 GPU 和两个至强 Max CPU。

英特尔还推出了测试开发系统,由128个刀片式服务器机架组成,为Aurora早期科学计划的研究人员提供服务。英特尔表示,Aurora超算系统旨在处理高性能计算、AI/ML和大数据分析工作负载,可实现2 ExaFLOP的峰值计算能力,预计在2023年投入运行。

英特尔下一代Max系列GPU的代号为Rialto Bridge,计划于2024年推出,具有更高的性能和无缝升级途径。未来英特尔还会推出代号Falcon Shores的XPU,其包含两种类型的计算单元,分别是CPU和GPU,将广泛使用英特尔的多芯片/多模块方法进行设计,根据目标应用的需求,灵活配比x86和Xe-HPC架构的内核数量。

编辑:芯智讯-林子 综合自网络

0 人点赞