引言:
前几天,小枣君和大家聊了一下“算力”(链接)。今天,我们再接再励,聊聊“算力网络”。
█ 什么是“算力网络”
直奔主题,到底什么是算力网络?
算力网络不是一项具体的技术,也不是一个具体的设备。从宏观来看,它是一种思想,一种理念。从微观来看,它仍然是一种网络,一种架构与性质完全不同的网络。
算力网络的核心目的,是为用户提供算力资源服务。但是它的实现方式,不同于“云计算 通信网络”的传统方式,而是将算力资源彻底“融入”通信网络,以一个更整体的形式,提供最符合用户需求的算力资源服务。
因此,也有人将算力网络叫做“Network As A Computer(网络即计算机)”。
在你面前的,就像一台算力机。你不需要管它背后到底是什么,你只需要知道,它一定能给你提供最符合你需求的算力资源。
█ 计算与网络的关系演进
单看前面那段话,会有点晕。接下来,我们还是从网络的起源开始讲起吧。
算力那期文章,我给大家讲了算力的发展历程,其实也就是计算机的发展历程。
网络的发展历程,其实和计算机是密切相关的。(这里所说的网络,指的是数据通信网络,不是语音电话网络。下同。)
上世纪60年代,正是为了让美国各大高校之间的大型计算机可以传输数据,才有ARPANET(也就是著名的“阿帕网”,互联网的前身)。
连接了美国中西部4所高校的阿帕网(1969年)
70年代,同样是为了服务高校和科研机构的计算机间通信,才有了早期的局域网技术(以太网、TCP/IP协议)。
网络的出现,除了让点对点(用户对用户)能够进行信息交换之外,更重要的意义在于——它让一些复杂的、高端的计算能力,能够被普通用户所触达。
在那个时代里,用户PC的计算能力是很弱的,能做的事情很有限,内容资源也很少(硬盘存储容量很小)。
有了网络后,用户可以与机房(数据中心)建立连接,可以访问机房里的服务器,共享服务器的CPU和存储。
算力的集中与共享
对于复杂的高难度计算任务,也可以借助网络,分配给不同的计算机,共同完成计算任务。这也就是网格计算,是分布式计算的一种形式。
80年代后,网络的数量越来越多,规模也越来越大。于是,人们建立了连接各大区域的骨干网,最终形成了全球互联网。
小网变大网,就是互联网
有了全球互联网,承载算力资源的机房,就可以变得更大、更强,为更多用户提供算力服务。这个机房,也就变成了互联网数据中心(IDC)。
进入21世纪后,基于互联网数据中心,为了更好地管理海量的服务器(也是为了用廉价服务器实现高性能高可靠性的计算任务),亚马逊和谷歌等公司就牵头搞出了云计算。
云计算的核心是虚拟化技术。说白了,就是所有的CPU、内存、硬盘、显卡等计算资源变成“资源池”,灵活进行分配,分配给用户使用。
虚拟化技术,把物理资源打散,变成虚拟资源
在网络这边,巨变也在同步发生。
起初,网络这边关注的重点,是传输速率、容量、覆盖的提升。毕竟,用户多了,数据中心多了,互联网厂商多了,带宽需求就增加了。想要让用户访问速度更快,体验更好,就必须把“水管”加粗。
这期间,光通信和移动通信得到了快速发展。采用光纤,可以显著拓展通信带宽。采用移动通信,可以实现随时随地的通信接入。
到了2010年左右,我们的通信网络,基本实现了人与人之间的物理连接,人与数据中心的物理连接。
枣君画图不易,转载请注明来源
这时,伴随着云计算、大数据技术的出现与成熟,通信技术的核心任务开始发生变化——通信的连接对象开始从人拓展到物,互联网开始从消费领域扩展到行业领域(工业制造、交通物流、银行金融、教育医疗等)。
行业互联网开始崛起,物联网也开始崛起,于是,打开了整个人类社会数字化转型的大门。
█ 第一阶段:云网协同
在数字化时代,一切都是围绕数据工作。
专家们大笔一挥,把所有的信息化、数字化、网络化,都定性为:“挖掘数据价值”、“创造数字财富”、“发展数字经济”。
以云计算、大数据、人工智能为代表的IT技术,改名叫算力。以通信技术为代表的通信技术,改名叫联接力。它们变成数字化转型最重要的工具。(存储资源也被称为“存力”,不过一般归于算力范畴。)
数据价值的挖掘过程
在这个时代,所有的计算机软硬件都被抽象化了,变成了和水、电一样的资源,叫“算力资源”。
所有的应用,例如看剧、玩游戏、办公自动化、AR/VR,等等,也被统一称为使用“算力应用”,享受“算力服务”。
算力变成了一种重要的生产力,整个社会都需要它。
不过,算力和电力存在很大的不同——电力就是能源,只要电网通了,你就能够用。但是算力存在不同的属性、类型。不同的用户,不同的场景,对算力的需求不同。
换句话说,算力是存在多样性的。
算力那期文章里提到,算力有通用算力、超算算力、智能算力等不同类型。
例如,我玩吃鸡游戏,需要的是游戏算法,图形渲染。结果,你提供的是智能算力,合适吗?
再例如,我搞路灯物联网,控制路灯的开和关,非常简单的操作,结果,你提供的是昂贵的超算算力,给我安排的是天河一号,这合适吗?
再再例如,我挖矿搞比特币,你给我提供x86 CPU通用算力,挖矿效率极低,这合适吗?
显然都不合适。
有人想要性能强劲的算力,有人想要响应速度快(时延低)的算力,有人想要价格便宜的算力……仅靠云计算,根本无法灵活满足用户的差异性需求。
于是,算力这边,想到了网络的配合。
反观网络(通信运营商)这边,也有强烈的合作意愿。
原因如下:
1、传统网络过于封闭,设备商控制技术,一旦选型,就难以替换。而以云计算为代表的IT技术,强调的是开源、池化、软件化,软件和硬件解耦。运营商作为甲方,可以掌握更多的主动权。
2、传统网络虽然是通信范畴,但也使用了算力。在路由和交换领域,在核心网领域,其实都是以算力为主,设备本身就是一台“类x86服务器”。想要提升设备的运行效率,就需要把通信网络给IT化、软件化,可以简化网络的运维,实现容量的弹性伸缩。
3、运营商是网络运营的主体,但是铺设了网络,却只能当个“管道”,碰不到用户的数据,也碰不到用户的业务。业务比流量包更赚钱,运营商不希望自己被边缘化,所以,希望以网作为自己的资本,参与云市场的竞争,分享蛋糕。
4、国内运营商左手有网,右手有云。但是,运营商的云,对设备商比较依赖。搞云和网的合作,可以借云卖网,借网卖云,还可以边卖边学,增加对云的掌控力,里外不吃亏。
于是,2010年左右,云和网开始打破隔阂,进行第一阶段的合作。这时,云和网属于“初恋”,双方还是强调各自的主体身份、合作关系,所以,叫做“云网协同”阶段。
大家所熟悉的SDN(软件定义网络)、NFV(网元功能虚拟化),就是云网协同阶段的典型代表技术。
当时,SDN主要针对承载网。把承载网路由器的管理功能和转发功能剥离,将管理功能集中。这样一来,相当于把网络给软件化了,可以随时下达指令。
SDN,网络被拆解了
NFV呢,主要针对核心网。它将云的技术引入网络,把通信网络单元从专业设备变成通用x86设备,网络功能由虚拟机实现,从而变得更加开放和灵活。
NFV,把网元功能从物理设备,迁移到虚拟设备(云服务)
其实无线接入网(基站)那边也有云化。天线没办法云化(总要收发信号吧),基带运算处理是可以云化的,于是,就有了Open RAN、vRAN、C-RAN等。限于篇幅,不多介绍。
SDN和NFV是在通信网络里引入云的技术和理念,相当于用云来改造网。
站在云的角度,也从网这边获得了“好处”。这个重要的“好处”,就是MEC边缘计算。
有了网之后,云发现自己可以顺着网“流动”了。它将中心云的一部分算力下沉,放到通信网络的各个层级,更加靠近用户,能够满足用户低时延算力的需求。
这个算力,可以在你家的路由器里,可以在大楼的弱电机房里,可以在基站机房里,也可以在区、县、市的各级机房里。反正,无处不在。
边缘计算=算力下沉
边缘计算,彻底颠覆了非端即云的传统算力架构,使得算力资源变成了“云、边、端”三级模型,它们相互协作,为用户提供所需的算力服务。
“泛在算力”的说法,也因此开始出现。
云网协同时代,云可以调动网络(“云调网”),网络也可以配合云。如前面SDN所说,网被软件定义,网的功能成为了平台上的选项,在操作云的时候,点点按钮,就可以调用网的功能,对网进行配置。 █ 第二阶段:云网融合
云网协同的出现,揭示了整个ICT行业的变革方向。它所取得的初步成果,也鼓励了运营商、设备商以及云计算服务商。
若干年后,大家一致认为,云和网仅仅协同是不够的,应该全面走向融合。就这样,“云网融合”闪亮登场了。
这次变化的根本原因,其实还是数字化转型的浪潮。数字化不断深入,数据变得越来越庞大。尤其是以数据为中心的人工智能业务,广泛落地,加剧了全社会对算力的需求。
为了满足紧迫的算力需求,云和网的融合必须提速。
在这一阶段,因为边缘计算的出现,云计算已经不能单独代表算力了,所以,和“云”有关的词,逐渐变成了“算”。(智算和超算的强势崛起,也使“算”这个字眼更有力量,更有逼格,更具代表性。)
而网络这边,彻底失去了和算力平起平坐的资格,开始加速与算力的“融合”。其实,坦率地说,是被算力“融合”。
融合是现阶段的动作,融合的最终目的,当然是算和网完全合为一体。也就是,将来,要实现“算网一体”。
一体后的“算网”,也就是——“算力网络”。
整个过程,大家有没有搞明白?之所以网上的概念特别杂,其实主要是因为三大运营商加上华为等设备商,特别喜欢取名字,炒概念,而且互相还不肯承认、不肯统一。所以,媒体上的叫法有很多种。事实上,很多名词,都是同一个意思。
运营商在造词方面,实在是太拼了。
那些“1 2 3”的,还有ABCDE啥的,更让人头大。
算力网络的英文名,也有好几个。例如:
CPN(Computing Power Network,计算能力网络)
CFN(Computing First Networking,计算优先网络)
CFN(Computing Force Networking,计算力量网络)
CAN(Computing-aware Networking,算力感知网络)
目前使用比较普遍的,是CFN(First那个)。
在本文开头,小枣君就说过,算力网络的存在意义,就是为了给用户提供最适合的算力资源服务。
这个适合,指的是算力类型匹配,算力规模合适,算力性价比最优。
算力网络要解决的核心问题,是算力需求急剧膨胀下,全网算力供给不足的问题。
目前,摩尔定律逐渐进入瓶颈,单芯片的算力提升空间越来越窄,成本越来越高。在单点算力无法持续倍增的情况下,盘活现有的算力资源,是解决算力不足问题的唯一办法。
算力已经赶不上数据的增长(图片来自驭数科技)
换句话说,让算力流动起来,精准服务用户,提升算力的利用率,比单纯堆砌算力、死磕芯片制程更有价值。
今年很火的“东数西算”,就是算力网络理念的一次落地实践。
东部地区对算力的需求高,西部地区的算力成本低(气温低,制冷成本低,且能源便宜)。所以,借助强大的通信网络基础设施,将时延要求低的算力,迁移到西部地区,就可以实现更完美的算力性价比。
那么,算力网络究竟是一个怎样的架构?它基于了哪些底层技术?它的三大特性——算力路由、算力调度、算力交易,到底是如何实现的呢?目前,算力网络的标准进展如何?
且看下集:算力网络的深度技术分析
谢谢大家!
参考文献:
1、《中国算力发展指数白皮书》,信通院;
2、《算力网络技术白皮书》,中国移动;
3、《算力网络(CAN、CFN、CPN)、东数西算是怎么回事》,QianLing,知乎;
4、《中国联通算力网络白皮书》,中国联通;
5、《算力网络发展介绍与展望》,曹畅;
6、《什么是算力网络》,吴卓然;
7、《关于“算力网络”底层技术的思考》,鄢贵海;
8、《AI算力需求快增长,平台化基础设施成焦点》,广发证券,刘雪峰、李傲远、吴祖鹏。