“东数西算”战略布局的重大意义

2023-03-04 16:01:23 浏览数 (2)

“东数西算”是世纪工程,算力网络是国家新型基础设施的骨架

随着我国现代化工业的飞速发展,互联网、制造业、服务业等行业日益增多的数据无时无刻不在考验着国家信息化基础设施的承受能力以及调度能力。“东数西算”是在全国范围内实现算力和应用资源按需调度的基础设施工程,是以算力中心、数据中心、高速网络为基础设施,由云计算、大数据以及智能计算为核心技术构建的一体化新型算力网络体系。我国东部地区数据产生量大、数据密集、算力资源紧张,西部地区地域广袤,拥有比东部地区更丰富的可再生资源,充分利用西部地区的计算资源来高效执行东部地区有巨大计算需求的数据,能够在全国层面更高效地支撑以降低全社会能耗为目标的计算方式,更稳定地解决算力增长需求,实现绿色可持续发展。

新基建已经被证明是繁荣数字经济的基石,毫无疑问像城际高速铁路和城际轨道交通、新能源汽车充电桩、人工智能和工业互联网等领域的新基建绝大部分将在东部经济发达省份和地区进行,而随着新基建的推进与其规模性效益的发挥,海量的数据将密集地产生在我国中东部地区,极大促进中东部地区算力需求的增长。从这个意义上说,“东数西算”将是我国推进新基建的有效保障,是基础设施的重要组成部分,其意义远不止于数据中心和算力中心的建设,而在于能够将现有的和将来的数据中心与算力中心在区域内与全国范围内连接成网,建设成为国家新基建工程的骨架,更高效地联通全局计算存储与网络资源,更合理地引导数据和应用的布局,以更绿色的能耗开销实现全国算力的规模化与高可扩展性。

“东数西算”将是我国建立在能源优化布局上的世纪新型基础设施,是在全国范围内按区域建设数据中心枢纽、实现数据迁移和算力平衡化的高速互联网络,主体上主要包括算力枢纽与算力网络的建设,除了带动我国数据产业的投资优化,还将在更大程度上实现数据产业的优化布局。

随着“东数西算”以及多层次数据中心布局的逐步推进,国家高性能算力网络将成为支撑东部数据到西部运算的重要基础设施,其组成将包括高速数据中心直连网、云网一体化、高性能边缘接入网以及数据中心内部高速网络等,需要加速实现多云间、云和数据中心间以及云和网络间的资源联动,真正实现云网融合。重点是建设区域数据中心间的按需弹性网络,优化网络结构,实现数据中心间的带宽资源可按时/按需调整,减少数据绕转时延。数据中心端到端单向网络时延原则上能控制在10毫秒范围内,是保证网络实时性、实现全面云接入、提升跨区域算力调度水平的基本保障。

高性能算力网络从字面上理解是算力资源信息的分发网络,是算力资源提供方与算力消费方之间的高速互联平台。本质上要求高带宽、低延时,支持带宽的弹性分配,可通过高速数据传输、共享与任务分发的手段来实现算力资源的合理调度,进而降低能耗。这种以算为中心、网为根基,将“网、云、数、智、安、边、端、链”等深度融合并提供一体化服务的方式,将实现从以网络为核心的信息交换到以算力为核心的信息数据处理的转变。

国家高性能算力网络的定位可以从国家层面和地域层面两个不同的角度来分析。从国家层面来看,是以八个核心算力枢纽节点为核心,建设算力枢纽的数据中心内网络、数据中心间网络以及跨地域的算力枢纽间网络。八个节点的布局建设,定位不同,发挥的作用也有所不同。贵州、内蒙古、甘肃、宁夏这四个节点要打造面向全国的非实时性算力保障基地,定位于不断提升算力服务品质和利用效率,充分发挥其资源优势,夯实网络等基础保障,积极承接全国范围的后台加工、离线分析、存储备份等非实时算力需求。京津冀、长三角、粤港澳大湾区、成渝四个节点要服务于重大区域发展战略实施需要,定位于进一步统筹好城市内部和周边区域的数据中心布局,实现大规模算力部署与土地、用能、水、电等资源的协调可持续,优化数据中心供给结构,扩展算力增长空间。

在省市区域层面,可以国家超算中心、地方超算中心和大型算力中心为核心,先行建设超算中心与各规模以上数据中心间的星型网络,面向大型AI模型训练、反恐/应急等时间上算力需求不均衡的应用以及高分影像数据处理、超大型机械/流体仿真等数据密集型与计算密集型应用等,建设按需分配与弹性调整的算力网络基础设施,通过算网一体的云网融合架构,实现基于骨干、城域的网络资源层、算力路由层,建立多中心间的一体化算力平台和算力服务层,进而实现数据密集型与计算密集型应用在算力网络环境下的适配和部署,满足传统高性能计算应用的弹性需求和扩展性需求。

国家超算中心是国家高性能算力网络建设的枢纽节点

一般来说,国家高性能算力网络是由运力和算力两个基本要素组成。运力以网络为基础实现算力枢纽、数据中心与边缘节点之间的互联互通,主要提供数据交换和算力路由服务,综合考虑任务类型、算力需求和成本等因素,将用户任务和数据调度部署在效益相对较高的算力枢纽节点中。算力因其硬件和应用服务类型的差异可分为通用算力、智能算力和超算算力。通用算力是由传统CPU芯片构成的集群服务器算力,可以支持对算力速度和类型要求较低的分布式计算应用。智能算力由多数量、多类型的智能加速器硬件构成,AI智能芯片为人工智能应用训练和推理过程提供服务。超算算力以大规模和超大规模计算节点和高速互联的网络构成,节点往往配置有异构或众核的高性能处理器,是支持高精度浮点计算能力的高性能集群系统。

现阶段的算力中心建设大致包含高性能超算集群、高性能网络和存储的硬件系统以及高性能计算支撑软件系统等,其中软件系统主要包含三类:一是高性能计算服务化与调度系统,提供多基础设施的整合和资源编排能力。能够实现高性能计算、辅助算力资源池、AI算力资源池的统一管理,提供资源标准化、资源申请、资源调度、资源变更、资源释放等功能,提升资源交付的效率。二是超算系统运行综合管理系统,对环境提供监控管理、对资源进行统一纳管、提供智能运营/运维服务、提供可视化管理。三是机房与动环运行管理系统,对各个独立分布的动力设备、机房环境以及机房安保监控对象提供实时的可视化管理。

国家高性能算力网络将成为高性能计算应用的基础设施,在科学计算领域,可用于气候模拟天气预报、揭示地球地质演化进程、自然灾害预测、大工程模拟建模试验等;在应用生产领域,可用于地质勘测、生物医疗健康等。随着更强大、更高计算能力的超级计算机的出现,可以模拟规模越来越大的微观系统、时间越来越长的微观过程以及细节越来越精细的微观现象,从而极大增强人类对自然的认知能力。时至今日,高性能计算在基础科学研究、工业工程、公益事业、国防安全等各个领域的广泛应用,解决了大批重大、关键、挑战性的重要科学和工程问题,对于支撑科技创新、推动经济发展具有重要作用。

2021年5月,国家发展改革委等多部门联合印发的《全国一体化大数据中心协同创新体系算力枢纽实施方案》中给出的算力网络国家枢纽节点布局总体思路是:第一,围绕国家重大区域发展战略,根据能源结构、气候环境等布局,建设全国一体化算力网络国家枢纽节点,发展数据中心集群;第二,在国家枢纽节点之间进一步打通网络传输通道,提升跨区域算力调度水平。在全国一体化大数据中心体系总体布局中,设计规划了8个国家算力枢纽节点和10个国家数据中心集群。其中离散的国家数据中心集群提供主要的算力支持,国家算力枢纽在全国一体化算力网络布局中起连接、统筹的作用。算力枢纽是使离散的数据中心集群相互联系的中心环节,是全国一体化算力网络建设的关键,在“东数西算”工程中起到合理统筹、布局数据的作用。

我国目前已经建立了天津、济南、长沙、深圳、广州、无锡、郑州、昆山、西安、成都等10家国家超级计算中心,近5年内总算力将超过10EB,是我国科学工程计算、行业计算与社会计算的主要算力设施,是国家战略科技基础设施与数字经济发展制高点。将国家超算中心作为建设国家高性能算力网络的枢纽节点,无论是在基础设施条件还是服务能力上都具备得天独厚的优势。

以超算中心为枢纽的高性能算力网络需要实现三个方面的主要功能:高性能计算服务架构、多中心间算力融合与调度、多中心算力互连网络基础设施建设。第一,基于国家超算中心建设高性能计算服务架构。基于国家超算中心,建设超算云平台,整合超算云资源池,构建针对高性能计算应用的云原生体系结构,完成高性能计算应用的云化改造和服务化封装,实现高性能计算应用的按需弹性计算,完善计费策略与服务。第二,基于国家超算中心实现多中心间算力融合与调度。基于国家超算中心,建设超算互联网服务平台,在高性能算力网络中扮演算力路由的角色,实现多中心高性能资源协同调度及资源优化布局。以国家超算中心为枢纽,建立数据互联与高效处理机制,实现多中心之间、中心内部的级联架构下资源跨域分配和自动化部署。面向超算互联网构建低代价分布式计算框架,以支持数据处理、人工智能训练与高性能计算的不同算子在数据中心间形成跨域工作流。第三,基于国家超算中心实现多中心算力互连网络基础设施。使用IPv4和IPv6网络环境下的超算中心互联方法、路由策略和治理体系,建立超算中心间大带宽、低延时、高可靠互联网络。

因此,国家超算中心将会是国家高性能算力网络建设的枢纽,需加大利用超算算力统筹、优化多中心分布式计算体系结构的研究和建设。在多数据中心的级联架构下,不同算力下的通信速率、I/O速率大不相同,速率慢会成为多中心计算的瓶颈,基于超算中心的多中心分布式计算架构设计,可以克服“东数西算”级联架构的多层通信问题,降低多层通信延迟带来的影响,通过合理的高性能算力网络纵向结构,找到平衡计算、I/O和通信的最佳点,进一步提升高性能算力网络的性能。

国家高性能算力网络将极大促进传统行业的升级转型

建设国家高性能算力网络会直接刺激芯片等上游产业的变革。数据中心是国家高性能算力网络的重要组成部分,计算、存储、网络传输是数据中心的三个核心功能。数据中心提升算力的主要方向是种类和数量更多的计算单元。作为核心的计算单元,在建设国家高性能算力网络的过程中,会直接拉动服务器芯片和GPU等异构算力芯片的巨大需求。同时,建设高性能算力网络也会拉动各种功能特化型芯片的研发和应用,如面向AI模型训练的AI芯片,直接面向大数据处理平台的DPU芯片,网络传输芯片、存储芯片、数据采集芯片等,这将极大促进我国芯片行业多元化发展。

支持跨数据中心节点的资源管理和任务调度是国家高性能算力网络一个不可或缺的部分,其对操作系统提出了更高的要求。操作系统在计算环境多变、需求多样、场景复杂等环境下需要对硬件资源、数据资源、系统平台及应用软件进行灵活的软件定义,以支持感知互联、计算认知、动态适配和反馈控制等跨数据中心节点的应用特点。具体来说,操作系统需要支持跨数据中心的节点资源管理与任务调度,支撑系统操作与管理环境、并行开发环境和应用支持环境三大部分的软件框架与设计能力,主要包括节点操作系统、资源管理系统、并行文件系统和高速通信库,负责管理硬件资源,进行基础的任务调度、资源分配、通信传输以及文件数据存储等。

云计算在本质上是依托计算机网络建立起来的,将集中或者相对集中的计算与资源以服务化的方式满足客户使用需求的基础设施与商业模式。云计算在实现上对算力网络有着天然的依赖,算力网络能够在更大的区域内让最终客户享受更好的云计算服务。随着近几年云计算规模不断扩大和在各行各业内的应用,工业云的发展在很大程度上带动了传统企业的转型升级。工业云向企业提供云设计、云制造、云协同、云资源、云服务、云存储等服务,可落实于工业软件设计、工业数据管理、3D打印、工业仿真分析等工程领域。工业云带动的工业互联网已成为工业企业发展的一个新方向,在过去的实践中,工业云的发展大大降低了传统制造业迈入信息化的门槛。此外,国家高性能算力网络还将会打破工业云之间通信与服务的壁垒,形成更高层次的“云”。算力网络的服务对象不再局限于某一个特定的领域,这将有利于各式企业以较低的运营成本进行数字化转型和智能化升级,提高我国工业企业整体的竞争实力。

此外,国家高性能算力网络将会对我国传统产业由“信息化”迈入“智能化”起到极大的推动作用。随着AI在各行业领域的不断深化,AI应用的场景不断丰富,AI训练和推理的计算量正在呈指数级增长。超算中心/数据中心的单一算力集群无论是计算资源、软件资源的多样性还是团队支撑都越来越无法满足复杂场景中超大规模参数训练和人工智能应用的需要。随着国家“东数西算”工程拉开帷幕,算力经济时代已经到来。随着新基建的推进,我国国家超算中心、各省市的超算中心、人工智能算力中心都在陆续建设中,这些多地域分布的算力中心节点构成了典型的多域高性能计算环境。随着国家和各省市智能计算算力网的构建,面向疫情防控、应急反应等国家重大战略需求,如何提供中心间的算力协同和按需调度方案,解决“算力孤岛”问题,提升国家在算力基础设施上的投资收益,成为当前亟待突破的瓶颈。

目前高性能计算与人工智能融合计算系统的主要功能,集中在减少机器学习任务在分布式环境下参数同步的通信量、提高系统对大规模深度学习的适应性等方面,但在分布异构集群尤其是跨域集群环境下提供细粒度智能计算任务调度、高效的混合精度计算支持,提高面向超大规模机器学习训练任务的性能、高性能异构环境下的稳定性上还存在明显不足。亟需立足国家超级计算中心枢纽节点,依托国家高性能算力网络,在多超算中心互联的超算系统上开展高效能、大规模的深度学习/机器学习的并行编程和性能优化。这不仅需要高效的资源管理、任务调度、CPU/GPU融合等异构协同计算环境,也需要该环境支撑下的超大规模深度学习并行编程模型、超大批量并行训练的机器学习在收敛性和扩展性上的性能优化,需要在超算计算节点内、超算节点间和多域异构超算间等不同层面分别解决性能模型基础理论、自动并行训练关键技术、异构智能计算资源管理机制以及大批量神经网络训练优化等关键问题。

“东数西算”是我国的世纪工程,是建设国家新型基础设施必不可少的骨架。我国城市发展不平衡决定了中东部地区将是应用和数据的主要产生地,国家高性能算力网络作为支撑东部数据到西部运算的重要基础设施,将在我国“东数西算”工程推进与实施过程中起到举足轻重的作用。运力与算力是构成国家高性能算力网络的基本要素,国家高性能算力网络将成为我国大规模高性能计算应用的基础设施,是解决我国关系到国计民生的重要科学和工程问题的关键设施,对于支撑科技创新、推动经济发展具有重要作用。

我国正在建设和运营的10家国家超算中心是我国战略科技基础设施与数字经济发展的制高点,以国家超算为枢纽节点开展国家高性能算力网络建设具有得天独厚的条件,在此基础上打造集计算服务、交叉研究和产业创新“三位一体”的国家重大科技基础设施和区域通用公共计算服务平台,将极大地促进传统行业的转型升级,夯实新基建。

(如涉及侵权,请联系删除)

0 人点赞