闲话高性能计算

2019-01-08 14:27:12 浏览数 (1)

第三个千年开始之际,人类醒来,伸展手脚……来瞧瞧今天有什么重要的事吧   ---《未来简史》

我们总需要时常回顾过去,不只是为了怀念,更多是为了找寻通往未来的一点线索。如果运气再好一些,说不定能发现一些点(leng)子(fan)可以被翻出来再引人注目。例如AI的发展,就经历了若干次热潮,最近的一波我们还身在其中。与此相比,高性能计算似乎一直很热,又一直离我们很远。说高性能计算一直很热,是因为从天河超级计算机开始,中国就加入了超级计算机的全球军备竞赛,年年争夺超算世界冠军;说离我们远,是因为我们在日常的工作生活中见识超级计算机的机会并不多。事实上,高性能计算(HPC)离我们近在咫尺:路上开的车,发动机、底盘、车架,从内到外的设计都离不开HPC;生病吃的药,研发过程是从计算模拟开始的;无数的电影特效,是在HPC上制作的……有意思的是,在过去的一年,高性能计算又频繁被提及,变成了一个热门话题。

不一样的高性能计算 

如今被频繁提及的高性能计算和传统的HPC已经大不相同了。包括AI、生命科学、计算化学家等技术的突飞猛进无疑凸显了对计算力的强烈需求,从而推动了HPC的发展和变化。在前不久结束的HPC China 2018大会上,英特尔院士、英特尔HPC战略总监Mark Seager在大会主题演讲中就提到,AI市场将从2017年的25亿美元成长为2022年的80-100亿美元,年复合增长率达到30%,但是现有的平台技术(包括HPC)依然不能很好的满足AI的算力需求。那么问题具体出现在哪里?我们觉得至少有以下几点值得注意:

  • 异构的计算单元——以AI辅助研发为应用场景的HPC,必然涉及大量异构的计算单元,包括各种性能的CPU节点、GPGPU节点、专用ASIC计算模块、FPGA模块、TPU和新兴的AI专用芯片等
  • 更大的计算规模——以计算机辅助药物研发为例,涉及高通量筛选的计算过程,常常需要数以万计的CPU核做并行计算。设想如果同时提交多个这样的计算任务,计算规模又会成倍增长
  • 多样化的数据存储——与传统HPC环境不同,越来越多的企业的数据来源于不同的数据源,存放在不同的存储介质,存储的性能和容量可能差别巨大。单一的一套分布式文件系统已经不能满足多样化的存储需求了
  • 硬件更新异常迅速——仅2018年,全球至少发布了约10款AI芯片,2代GPGPU,加上FPGA解决方案等,硬件的更新已经不是以年,而是以月计。为了跟上硬件的更新,需要更迅速有效的系统方案,动辄几个月的部署上线时间是不能接受的
  • 融合网络——也许软件定义网络还不是HPC必须的配置,但无疑更快速灵活的网络管理和动态优化是必须的

总之,应用场景的变化和对计算力的极度渴求正赋予HPC全新的使命。

为什么是现在?

AI早就不是一个新学科了,生命科学也持续在发展,那为什么这些领域的用户似乎是一夜之间都对算力如此饥渴?我们觉得一个很重要的原因在于数据。

这个表是Gartner评选出的2010年-2017年间最酷的存储公司。其中Pure,Nimble和Violin Memory是上市了的。Nimble和Violin Memory先后被收购,Pure也没有实现PK掉EMC的豪言壮语。更有意思的是,EMC也在不久前与Dell合并,不再是一家独立的公司。对此,我们的解读是,数据存储依然是一个巨大且增长的市场,但是已经有很多很好的产品和解决方案(包括云存储)可供用户选择,跑马圈地式的发展已经是过去时了。同时,从用户的角度看,存储虽然不是一个已经完全被解决的问题,但在过去的这些年,用各种存储产品和方案,也能把他们需要的数据积累下来。

接下来的问题,就是这些数据如何为用户产生价值。如果把这些还在不断积累的数据看做金矿(真的是金矿),那大量的计算就是挖掘金矿的工具,更高性能的计算能力就是现代化金矿挖掘机!

拥抱改变

要用更快的速度挖出更多的金子,就必须解决我们之前提到的一系列问题。这些改变是每一个用户都需要,并希望尽快实现的:

功能与硬件的解耦——底层硬件依然在飞速发展,异构计算也方兴未艾。用户如何应对最底层硬件的更新?一个可行的方法是添加软件的抽象层,将硬件能力封装,例如TensorFlow

拥抱云计算——云的规模优势非常明显,可以提供更新更快的硬件,但也会带来额外的复杂性。对此,可以尝试从策略驱动的资源调度、负载自动溢出到云端、云原生优化等方面着手。根据Univa在2018年对超过250家企业客户的调查,相比2017年,客户对在混合云上运行HPC的兴趣增长了10倍,有61%的用户表示他们将会,或已经在使用混合云运行HPC应用

更高带宽、更低延迟的网络——这包括单个数据中心内部的高速网络和跨数据中心的网络。在这一领域的一个榜样是Equinix和一家HPC初创公司RStor共同建立的多云之间的高速网络

我们相信,更高效的计算会让我们从海量的数据中挖掘出更有价值的成果,会更深刻的改变我们所生存的世界!

0 人点赞