新智元报道
编辑:LRS
【新智元导读】最近几年E级超算的呼声越来越高,但始终还没有哪个国家推出百亿亿次超算。美国Frontier超算近期开启公开测试,采用全AMD的架构,含超千万GPU核心,美国能全球首发E级超算吗?
超算排行榜,明年可能要迎来大变化!
美国橡树岭领先计算设施(OLCF)项目最近发布一条新消息,计算设施的测试平台系统已经成功启动,并有代码正在Crusher上运行测试。
2019年时,美国能源部宣布投资6亿美元打造一台名为Frontier的超级计算机,以AMD处理器 AMD加速卡的架构进行搭建,预期计算能力将是Summit系统的7倍,并计划在2021年上线。
Crusher就是Frontier的一部分,可以看作是Frontier超算的「缩小版本」,科学家目前可以通过Crusher访问Frontier。
Crusher拥有和Frontier完全相同的计算架构,但只包含1.5个机柜,总计128 64=192个计算节点,总面积不过44平方英尺(约4平米)。和2013年上线的美国泰坦超算相比,占地面积仅为泰坦的百分之一,性能却更强,具体算力官方没有透露。
目前正在运行的4个科学项目已经成功通过Crusher在Frontier架构上完成优化,包括癌症分布学习环境(CANDLE)项目、并行架构上计算流体动力学(Cholla)项目、局部自洽多重散射(LSMS)项目、橡树岭的核电耦合集群(NuCCOR)项目。
由于Frontier进度不及预期,2021年底才开展安装工作,所以Frontier系统的实际上线时间可能要等到2023年1月1号。
根据官方文档来看,每个Crusher计算节点都配备了AMD专门优化过的第三代EPYC 7A53 64核心处理器CPU,每个物理核心有2个硬件线程,可以访问512GB DDR4内存。
每个节点还包含4个AMD MI250X计算加速卡,每张MI250X加速卡内部集成两颗核心,可以看作是2个GPU,也就是每个节点都相当于是八卡。
MI250X加速卡号称在同类产品中拥有世界上最快的HPC性能、AI性能,使用新的CDNA2计算架构,搭配升级的6nm FinFET工艺,580亿个晶体管,并使用2.5D双芯整合封装,14080个流处理器核心,80个二代矩阵核心,8192-bit 128GB HBM2e内存,峰值560W。
计算下来,Crusher总共192颗处理器(12288核心)、768块加速卡(10813440核心),也就是超过1082万核心,还有32TB内存、250PB硬盘。
玩「扫雷」的话,应该是不会卡了。
新王登基还是群雄争霸
百亿亿次超级计算机一直是兵家必争之地,也就是计算机每秒运算次数需要达到1后面18个0,达到这个量级就称为1 exaflops,所以百亿亿次超级计算机也称为E级超算。
E级超算也被视为人类超算发展的一个里程碑,有望在解决全球能源危机、气候变化、环境污染等重大难题上发挥巨大作用。
2018年,美国橡树岭国家实验室(ORNL)推出的Summit,理论峰值可以达到200 petaflops,2020年的日本富岳超算理论峰值达到537 petaflops.
富岳就这样霸榜了两年,万众期待的E级超算还没有出来屠榜。
超算榜单的计算是使用64位浮点为基准,主要是因为解决物理模拟所需的三维偏微分方程需要这个精度。现在超级计算机的主要用途已经转为训练深度神经网络了,只需要16位的浮点精度即可,所以不严格的讲,富岳已经是E级超算了,只不过榜单上没有承认。
比如特斯拉2021年公布的超级计算机Dojo,它的算力就号称达到1.8Eflops,不过它是基于FP16的低精度,而日本富岳如果使用FP16测试,速度可以达到2Eflops以上。
并且一些专用的超算,比如有一个模拟蛋白质折叠的分布式计算的项目,因为所有的计算都可以分开计算,也不涉及多个计算机之间的计算通信等等问题,只需要堆电脑就能达到E级。2020年时项目官方在推特上发文表示,他们已经跨越E级。
但各个国家对超算的需求没有止步,各种科学仿真实验都需要更强大的超算,负责ORNL计算设施的Justin Whitt表示,Summit超算需求量大概相当于实际能力的4-5倍,所以组装新超算Frontier也被提上了日程。
Frontier完成后预期可以达到1.5 exaflops的峰值理论性能,也就是比Summit快7倍以上。更强的是,Frontier的能耗预计为29000千瓦,耗电量增长不到三倍,和当前富岳的能耗差不多。
除了全AMD架构的Frontier,美国还有其他方案,如Intel处理器 Intel加速卡的Aurora(极光)和AMD处理器+NVIDIA加速卡的Polaris(北极星)
Aurora超算系统是美国能源部阿贡国家实验室的超级计算机项目,旨在处理高性能计算、AI/ML和大数据分析工作负载,基于Sapphire Rapids和Ponte Vecchio构建,预计可以实现2 exaflops的峰值计算性能。
不过英特尔由于研发问题,7nm Ponte Vecchio GPU 芯片延期交付而不得不推迟一年,预计今年或明年才能正式上线。
所以阿贡国家实验室暂时选择购买另一台超算Polaris,由Hewlett Packard Enterprise负责建造,预计今年前半年即可交付给早期用户,也是阿贡国家实验室最大的基于GPU的超算。
英伟达表示,Polaris拥有560个计算节点,每个节点有4个 Nvidia A100 GPU,可以实现约44petaflops的峰值双精度性能,理论 AI 性能可以达到1.4 exaflops,所以Polaris并非是一台严格意义上的E级超算。
闷声发大财
早在去年6月超算榜单公布之前,就有消息传出国内已经部署了两套新一代的超级计算机。
一位不愿透露姓名的权威人士表示,去年3月,在申威Sunway Oceanlite架构上跑过一次LINPACK,也就是目前超算排行榜排名第4的神威太湖之光的下一代产品,其峰值计算性能达到了1.3 exaflops,持续计算能力1.05 exaflops,功率约为35000千瓦。
LINPACK是一个可以用来衡量超级计算机性能的测试,LINPACK的编写人之一Jack Dongarra也获得了2021年ACM图灵奖。
其实早在2018年,由江南计算所、国防科大和中科曙光公司根据不同技术路线研制的三台E级原型系统已经完成并分别安装在济南、天津和深圳国家超级计算中心。
三台E级原型机,即神威E级、曙光E级及天河三号性能都进入了中国高性能计算机TOP100的前十位。
在原型机基础上升级的E级超算系统原计划在2020年交付,目前还没有任何公开的信息,很可能已经推迟。
2021年12月,为充分发挥新一代国产E级超算系统强大计算能力,研发适配国产超级计算系统的关键技术和应用软件,国家超级计算天津中心和国防科技大学,联合数十家合作团队,共同发布「面向新一代国产E级超级计算系统的十大应用挑战」。
种种消息都在暗示国产E级超算即将面世。
虽然各国都在争夺「首发」E级超算,但超算的研发并没有想象中那么简单。
比如能耗问题,E级计算机除了运算速度快之外,对能耗也有严格要求。如果仅是不断增加处理器,那么体积和功耗会不断增加,这并不是超算可持续的出路,目前业内公认的E级超算能耗标准是在40MW以下达到每秒百亿亿次。
前面提到的Aurora超算设计功率就是40MW,而欧洲更是致力于将其首套E级超算能耗控制在10MW内。
还有近两年芯片行业短缺、产能不足也会影响超算的组装和研发进展。
Hyperion Research公司按照系统验收的时间估算,2021至2026年期间,全球将建成28~38台E级或接近E级的超级计算机,总价值约在100~150亿美元。
所以今明两年极有可能是E级超算大爆发的元年,届时人类的计算能力将再上一个新台阶!
参考资料:
https://news.mydrivers.com/1/823/823148.htm
https://www.cnbeta.com/articles/science/1196065.htm
https://new.qq.com/rain/a/20220315A0CXRT00