(上)基于算力加速的量子模拟问题
PART
04
NVIDIA Linux GPU内核
在异构并行计算的大潮中,显卡巨头NVIDIA(英伟达)的研发团队宣布NVIDIA进军量子计算领域为量子开发者构建开发工具。NVIDIA的愿景是开发出一种混合计算模型,其中量子计算机和经典计算机可以协同工作,分别处理各自最擅长的问题。在经典-量子混合计算研究中有一个极具潜力的发展方向——经典计算机可以调用一个相对较小的量子“协处理器”做一些关键计算,其作用类似于图形处理单元GPU。研究人员期望将QPU当作一类强大的加速器,使经典和量子系统连接成混合量子计算机。混合量子计算机首先需要在GPU和QPU之间建立快速、低延迟的连接,GPU负责电路优化、校正和纠错一类传统工作,以缩短GPU执行时间。其次,量子计算行业需要一个统一且高效易用的编程模型和一个编译器工具。英伟达对提高带宽、降低延迟的设计处理等为QPU的研发提供了思路和启发,这方面最近的革新包括:第四代NVLINK和第三代NVSWITCH、InfiniBand、自研Grace CPU等。
NVLINK和NVSWITCH——更高宽带与更低延迟
NVLINK和NVSWITCH可支持服务器内和服务器间实现高级多GPU通信的基础模组。第四代NVIDIA NVLink 技术可为多GPU系统配置提供高于以往1.5倍的带宽,以及增强的可扩展性。第三代NVIDIA NVSwitch基于NVLink的高级通信能力构建,可为计算密集型工作负载提供更高带宽和更低延迟。为了支持高速集合运算,每个NVSwitch都有64个NVLink端口,并配有NVIDIA SHARP引擎,可用于网络内归约和组播加速。NVLINK与NVSWITCH协同工作,NVLink是一种GPU之间的直接互连,可扩展服务器内的多GPU输入/输出 (IO)。NVSwitch可连接多个NVLink,在单节点内和节点间实现以NVLink能够达到的最高速度进行多对多GPU通信。
InfiniBand——加快通信速度
InfiniBand和以太网是超算领域较常用的互连方式和协议。以太网设计的初衷是解决各种各样设备之间的连接问题,其核心特性是通用性强;而InfiniBand的设计初衷是解决同一个系统中不同设备之间的连接问题,主要目的是加快通信速度。对于高性能超级计算机来说,为了提高数据交换速度,一般会采用InfiniBand技术。英伟达并购Mellanox后,充分挖掘InfiniBand技术,使网络交换速度得到保证,并开发出了 NVIDIA Mellanox InfiniBand交换器系统。
目前的NVIDIA Mellanox长距互连系统可以无缝连接InfiniBand远程数据中心、存储或其他InfiniBand远程平台。MetroX-2和MetroX扩展了InfiniBand网络的高数据吞吐量、原生RDMA通信以及其它先进功能的应用场景,可支持远程数据中心之间或数据中心与远程存储基础设施之间的原生InfiniBand连接,实现了异地高可用性和灾难恢复,可通过整合多个远程数据中心的计算能力实现更高的整体性能和更大的计算规模。
Bluefield芯片——降低延迟,减少CPU工作量,提高数据交互性能
Mellanox的主要产品就是Bluefield芯片,英伟达也将名为Bluefield芯片称为DPU(Data Processing Unit,数据处理单元)。所谓DPU实际是一个高级网卡,基于DPU的智能网卡是云数据中心设备中的核心网络部件,逐渐承担原本为CPU执行的网络数据处理和分发任务。为了解决云游戏服务器的延迟问题,英伟达云游戏平台Geforce Now采用Bluefield架构。Bluefield芯片可分担CPU的网络、存储和安全等任务,大大减少CPU的工作量、提高数据交互性能。
自研Grace CPU——解决GPU读取内存数据带宽瓶颈问题
NVIDIA Grace CPU超级芯片通过NVLink-C2C技术带来144个Arm v9核心以及1TB/s内存带宽,采用ARM v9指令集,主要应用场景为数据中心领域。NVIDIA Grace CPU 率先通过纠错码(ECC)等机制,利用具有服务器级可靠性的LPDDR5x内存来满足数据中心需求的服务器CPU,其内存带宽为当今常规服务器内存的2倍,能效更是高达10倍。
量子模拟器正极大地发挥量子计算的算力优势。正如英伟达加速计算副总裁Ian Buck在国际超算大会的演讲中所说:“量子计算具有巨大的潜力。为了离有价值的量子计算更近一步,我们必须在GPU超级计算机上模拟量子计算机。”2022年5月11日,英伟达宣布正式开源Linux GPU内核模块,在一定程度上为QPU和量子模拟器的研发提供了更多思路和启发。