雄霸HPC Top500冠亚军却仍遭他国质疑,中国超算到底缺在哪儿?丨科技云·视角

2022-04-14 18:17:16 浏览数 (1)

新一期全球超级计算机500强榜单中,中国超算“神威·太湖之光”和“天河二号”连续第四次分列冠亚军,中国超算再一次反超美国,夺得第一。虽然中国超算终于在近些年取得了令人瞩目的成绩,但是在国际上依然遭到了“高分低能”的质疑。

超级计算机(HPC)是由数千甚至更多处理器组成、能完成普通计算机和服务器不能达成的大型复杂课题的计算机,被誉为“计算机中的珠穆朗玛峰”。作为“现代科学技术的大脑”,HPC已成为解决重大工程和科学难题时难以取代的工具。

在最新发布的全球HPC Top500榜单中,中国超算“神威·太湖之光”和“天河二号”再次领跑,而美国已经连续两次没有超算进入前三名。

此外,美国“Titan(泰坦)”继半年前被瑞士“Piz Daint(代恩特峰)”赶超而落到第四名后,此次又被日本的“Gyoukou(晓光)”超过,也就是说,美国的最高排名是第五位。

从榜单综述上看,中国超算也又一次反超美国,夺得第一。据统计,此次中国上榜总数达到历史最高的202台,相比6月增加43台,与此同时美国则降至144台。

夺冠心酸路:屈辱的“玻璃房子”

作为世界高性能计算领域规模最大的权威会议之一,国际高性能计算大会每半年公布一次全球超级计算机Top500榜单。全球超算500强榜单始于1993年,是对全球已安装的超级计算机排座次的知名排行榜,由美国与德国超算专家联合编制。

中国超算“神威太湖一号”一年前就以每秒9.3亿亿次的浮点运算速度首次夺冠,运算能力超过2到5名的总和,被榜单编撰人形容为“毋庸置疑是这个星球上最强大的数字运算机器”。

"神威太湖一号"总共有48个机柜,左右两边各20个,中间 8个,在机房中的排列呈“010”的样式,这也正是计算机的语言。其中,每个机柜有 1024个CPU,采用众核架构,每个CPU有四个主核,每个主核带有64个从核。主核负责分发任务,从核负责加速,等于把CPU和GPU做在一起了。每天耗电量40万度,一年耗电量相当于3个清华大学的用电量。

虽然中国在超算上取得了令人瞩目的成绩,但是很少有人知道中国超算曾远远落后于世界水平。超级计算机,国家超级计算天津中心应用研发部部长孟祥飞对媒体谈到了中国超算发展的艰辛之路,他讲述了一个非常有代表性的故事叫做“玻璃房子”。

世界第一台超级计算机是1976年美国研制的,而中国开启高级计算机研制的步伐是在1978年,基本与世界同时起步。但由于国内研发设计的基础非常薄弱,制造能力也有限,所以中国长期以来都处于跟跑的状态。

当时,中国花高价向国外的机构购买超级计算机,但买回来后要建独立的机房、要把数据交给外国,由外国的工程师进入机房进行数据处理,而中国自己的工作人员只能隔着窗户看一下这台超级计算机。

这个现实让孟祥飞内心非常痛苦,尤其是当他想开展理论物理的博士研究工作时需要用到超大规模的计算,国内却很少有这种平台提供超级计算能力的时候,这种感觉更为强烈。

当孟祥飞来到美国联合培养的时候,他发现美国一个普通的高校就可以有一台相当规模的超级计算机,更不用说他们的国家实验室和研究机构。所以他立下决心学成以后回到国内,为国家的创新、发展做出自己的贡献。

正是这种不服输的精神,让我国开始下大气力研发“神威”系列超级计算机,直到以绝对优势领先国际竞争对手成为超算界老大。

去年 11 月,基于“神威·太湖之光”,我国科研团队完成的“千万核可扩展大气动力学全隐式模拟”应用项目获得了 2016 年超级计算机应用领域最高奖——“戈登·贝尔”奖,成为我国高性能计算发展史上的里程碑。

“戈登·贝尔”奖设立于 1987 年,此前从未有中国团队入围获奖。而 2016 年入围的 6 项应用中,就有 3 项来自中国。另两项分别是国家海洋局第一海洋研究所与清华大学合作的“高分辨率海浪数值模拟”以及中科院网络中心的“钛合金微结构演化相场模拟”。

今年 10 月 24 日,又有两篇来自中国、基于“神威·太湖之光”的论文入围“戈登贝尔奖”终选名单,占总数(3篇)的 2/3。中国崛起的速度,超出所有人的想象。

“高分低能”的质疑:

中国超算还缺什么?

尽管中国超算已向世界证明了自身实力,但仍有外媒报道称,“神威·太湖之光”是高分低能的超算。按照另外一种基于性能和通信平衡的HPCG测试,中国的神威超级计算机很可能要落后于日本的“K”计算机。

这实际上反应的是对神威超级计算机的一种误解:即只能跑分不能干活,但其实这早已经是老黄历。

“神威•太湖之光”超级计算机部署一年以来,应用领域已经涉及天气气候、航空航天、先进制造、生物医药、新材料、新能源等20个方面,支持国家重大科技应用、先进制造等领域解算任务几百项,一年来共计完成200多万项作业任务,平均每天完成近7000项作业任务。

要说比拼实际项目能力,基于“神威·太湖之光”的“非线性地震模拟”,则首次实现了对1976年唐山大地震的高分辨率精确模拟,使科学家可以更好地理解唐山大地震所造成的影响,并对未来地震预防预测等研究具有重要借鉴意义。

据了解,研究团队选取了唐山大地震震源附近320公里×312公里×40公里的空间区域,以毫秒(一秒的千分之一)为时间单位,精确模拟了该区域在地震发生后150秒内的地质变化,分辨率可达到8米,频率可达到18赫兹。此前美国团队在“泰坦”超级计算机上运行的地震模拟,分辨率和频率只有20米、10赫兹。

虽然中国超算在近些年取得了令人瞩目的成绩,但是一个不容忽视的事实是:作为超算核心元件的处理器一直被美国掐着脖子。

从全球HPC Top500的处理器选择上来看,英特尔成为各家超算的首选,中国天河一号和天河二号也采用了英特尔至强系列处理器。

2015年4月,美国商务部决定对中国四家国家超级计算机中心禁售Intel Xeon Phi处理器,一石激起千层浪。正是这种封锁带来的激励,令中国超算开始转向国产处理器,并取得了不错的成绩。

据悉,中国神威·太湖之光已经启用国产申威处理器,多核性能将达到了Intel至强E5主流产品的水平,而下一代的天河三号的原型机已经选定飞腾系列芯片作为CPU,这对于天河超算摆脱进口芯片掣肘是一个好消息。

更令人欣喜的是,目前国内已经有多家公司和研究所已经推出了基于新一代飞腾微处理器的自主可控产品,未来或将彻底告别国外CPU或加速器,实现芯片的全国产化。

除了在芯片自主研发上的差距,美国在超算上的发力也不可小觑。根据《华尔街日报》的报道,美国能源部及与其合作的6家硬件供应商将得到近5亿美元的资金,致力于研究、开发和部署E级(百亿亿次)计算项目。

该计划表明,在2021年之前,美国能源部将至少交付两个系统,如不出意外,年底排名中将会出现美国的两台每秒20亿亿至30亿亿次规模的新系统。

超算是解决国家经济建设、社会发展、国防建设等领域重大挑战性问题的重要手段,因此已成为世界各国争夺的一个战略制高点。尽管中国超算屡次在运算速度上取得世界第一,但芯片的自主化国产化还有很长的路要走。

【科技云报道原创】

转载请注明“科技云报道”并附本文链接

0 人点赞