作者简介:商志彪 新华三技术有限公司,致力于数据中心网络技术创新
——DPU打造ICT深度融合的未来网络
DPU,仿佛一夜之间红遍大街小巷,大有在信息领域与CPU分庭抗礼之势,时下DPU正处在一个春秋战国的时代,各大互联网厂商、网络设备厂商、芯片设计厂商等均根据自己的理解来阐释自己的DPU产品,以期望在未来的产业大格局中分得一杯羹。
01 DPU到底是个啥?
首先,它是一个全新的概念,而且围绕这个新概念仿佛业界还没有达成清晰统一的共识。
但是不可否认的是,DPU的出现打破了原有的CPU和网卡主导的主机侧网络架构体系,使得网络数据处理有最大的可能从CPU的负担中独立出来,这也是这个全新的概念最有价值的地方,它的出现可能会向当年的SDN一样给网络架构带来深刻的变革,当然现阶段还只是处在整个改变的前期。
其次,它应该是一个具有专门数据处理能力的硬件芯片,可以类似协处理器一样来分担原有架构中CPU和网卡的部分功能,这一点在当前业界所有的DPU产品中都是基本统一的。从某种角度上,DPU具有原来智能网卡的部分影子,不同的是做为一款服务器设备上的芯片,它的重要程度已经从原来的网卡级别提高到对齐CPU而已。
最后,也是最重要的,DPU到底能做什么?仅就目前这个阶段,主要做为卸载CPU在网络、存储、安全领域的算力消耗,以更加专用的芯片来更高效地实现原有相关功能。当然,在现阶段各个DPU产品在路线和功能上还都处于应用探索阶段,百家争鸣的背景下暂时还没有哪个厂商凭借优秀的技术能力和与关键需求的完美契合完成这个江湖的统一。
02 DPU是IT产品还是CT产品,或者其他?
为什么会有这么一个问题?或许是因为作者本身是一个网络技术的从业人员,从网络的视角,更倾向于DPU是一个末端的网络处理单元,DPU的加入可能会给整个网络带来一种新的变革。如果DPU仅仅做为一款IT芯片,只是把原有通用代码实现的能力在专用硬件上重新完成一遍,那么它的创新空间不足以与其DPU的名号想匹配,更重要的是其应用场景必然会受到限制,无法真正完成对标CPU的宏大愿景。
在作者看来,DPU更应该是一个ICT融合的产品,它的出现会可能给整个网络体系带来一定的变革,无论是芯片架构层面,还是网络协议层面,数据转发层面,都可能随着这样一个新产品的加入带来新的发展机遇,被DPU的引入而诞生新的活力。
03 没有DPU的数据中心网络目前遇到哪些问题?
近几年,数据中心网络在SDN和Overlay技术的加持下,已经逐步在实现了第一阶段的ICT化,在部署了SDN之后,业务层的IP地址分配变得向IT一样灵活,而传统的网络仅仅做为underlay,可以长期地保持不变,这一技术很好地平衡了IT业务软件的灵活性和CT网络的配置复杂性,在实际应用中获得了认可,不知道有多少人还记得那个需要人工根据网络掩码计算来给业务分配网段地址的时代。云计算与SDN网络的深度结合真正意义上实现了业务网络配置和变更的自动化,网络部署从原有数周的人工调试周期缩短到几个小时的标准接口调用,大大提高了数据中心网络的建设速度,然而这好像又远远不够。
就目前的行业状况来看,网络的配置效率极大的提高,但是相应地网络的运维和管理效率仍然还有很大的可提升空间,SDN实现了网络高效地配置和变更,但是在网络故障处理、运维等领域,却面临着巨大的挑战,在现实的运维环境中,往往是业务系统优先于网络感知到业务中断或者丢包等问题,然后反向推动网络人员专线式的排查解决,而做为智能网络的自身,虽然业界在广域网领域也提出了iFit等随流丢包检测的机制的尝试,但是在具体的数据中心内却是没有一个整体上的应用数据包监控系统,这在运维应用中会带来CT领域和IT领域故障界定的困难,尤其是针对偶发性的复杂故障。换句话说,网络设备目前没有针对网络数据包传输结果自证清白的能力,一旦网络发生故障,即业务侧报告的问题,网络侧不能给出强有力的数据来证明:这个数据报文已经从A地址成功传输到了B地址,其他的问题属于非网络范畴;或者某个数据包没有正常传输到应到的地址,需要对某个网络设备或者链路来分析丢包的原因。
04 DPU的引入或许能给数据中心网络带来技术变革
可以构想,当DPU做为一个重要的网元与SDN控制器进行交互之后,整个控制器视角下的网络将与原有的网络完全不同。传统的网络仅做为一种网络设备进行数据的接收和转发,离业务和应用的数据包发送更远,一旦网络报告故障,仅仅网络设备甚至无法做到故障线路数据报文的重发,因为这一部分是业务应用网络的范畴,SDN控制器下辖的网络设备没有这种关键的测试能力,这种割裂同样也给网络问题定位增加了困难,做过研发的人都知道,通过应用复现问题是解决问题的关键的一个环节,虽然当前控制器控制了整个网络,但是缺乏对诸如DPU类的端网元的有效管控,网络与应用没有一个共识的接口和契约的前提下,网络全局控制设备在架构上就无法构建成一个自洽的问题处理系统,因此网络的自动化故障分析、定位和处理等技术都处在一个极其缓慢的发展阶段。
如果DPU设备可以成为一个清晰的CT与IT的分界设备,比如它能够清晰地记录IT对CT交付了哪些数据包,CT对IT交付了哪些数据包,再结合全局控制器或者分析器介入的数据中心场景,网络故障的自动发现和处理就可以成为切实的可能。通过DPU对IT和CT的有机结合和清晰界定,对于IT类故障和CT类故障能够给出一个明确的、具有事实数据为依据故障范围界定,能够有效地减少在信息不充足的黑盒背景下,错误地将故障排查范围扩大而造成的资源浪费,对于快速有效的故障界定具有实际应用价值。
数据中心网络中DPU做为一个关键的边界网元加入整个控制器下的统一管控网络,不仅仅会刷新控制器的架构体系,同时也对整个全局可控可分析网络注入了新的活力,进而提升整个网络的自动化运维能力。网络的运维自动化能力本质上就是一种CT设备的IT化能力,或许它就是ICT融合的下一个阶段,会使得网络的未来变得更适应于IT应用的灵活需求,走向ICT的更进一步的融合,或许DPU仅仅只是一个开始。
【转载须知】
若转载文章为原创文章,可在相应文章下或公众号后台留言;其他非转载类文章须在文首以不小于14号字体标明转载自SDNLAB。
【投稿】
欢迎智能网卡/DPU、SDN、SD-WAN、确定性网络、TSN、5G、网络切片等网络方向的观点类、新闻类、技术类稿件。
投稿邮箱:pub@sdnlab.com
详情请参考:SDNLAB原创文章奖励