随着大型企业及超大规模网络对人工智能工作负载和高带宽需求的日益增长,对光纤连接技术的需求也在显著上升。思科光学系统的高级副总裁兼总经理Bill Gartner指出,由于光纤具有卓越的传输能力,它已经成为连接数据中心、服务器、路由器、交换机以及网络架构中广泛分布的各个组件,以实现远距离高速数据传输的首选技术。
尽管如此,光网络的全面扩展并非没有挑战。
供应商们正积极推进400G、800G以太网等更高速度的技术发展,并深化技术研发,以支持人工智能网络的快速增长。同时,他们还在努力优化光网络和接口的能效,旨在在保持高性能的同时降低能源消耗。
目前,包括思科、博通、英伟达等多家行业领导者正在积极提供或开发先进的光交换机,以满足不断增长的带宽和速度需求。谷歌也加入了这一行列,自主开发了Apollo光交换平台,该平台不仅专注于提升带宽和速度,还将提高能源效率作为其核心目标之一。
谷歌推进Apollo平台
谷歌在其最新文章中介绍了Apollo平台,这标志着数据中心网络架构的重大革新。传统数据中心通常采用“Clos”拓扑结构,也称为Spine-Leaf架构,通过由博通、思科、Marvell和英伟达等业界领导者提供的电子分组交换机(EPS)来连接服务器机架内的计算资源,包括CPU、GPU、FPGA、存储和ASIC。然而,这种架构的主要缺点是高电力消耗。
Apollo平台代表了数据中心网络向光电路交换(OCS)技术的转变。该平台集成了谷歌自主研发的OCS技术、循环器和定制的波分复用(WDM)光收发器,通过基于OCS和循环器的双向链路,显著提高了数据传输效率。Apollo现已成为谷歌数据中心网络的核心,全面支持各类数据中心应用。
光是通信的必由之路,OCS已成功应用
通过用Apollo OCS层替代传统的主干层,谷歌不仅简化了网络结构,还大幅降低了成本和能耗。这是因为它消除了主干层中的光交换机和复杂的光学接口。在Apollo架构中,光交换机直接连接到配线架和叶子交换机,形成了一种非分组交换的光交叉连接模式,进一步优化了网络性能。
Dell'Oro Group的副总裁Sameh Boujelbene指出,OCS交换机以其高带宽和低延迟的特性,以及对资本支出的有效降低,正在显示其优势。这是因为OCS减少了对电气交换机的需求,省去了昂贵的光电转换过程。此外,随着服务器升级采用新一代光收发器,OCS交换机不需要频繁更新,这与电气交换机形成鲜明对比。
尽管OCS技术具有巨大潜力,但其普及仍面临挑战。目前,只有谷歌成功地在数据中心网络中大规模部署了OCS。此外,OCS交换机的部署可能需要对现有的光纤基础设施进行适应性调整,具体需求因云服务提供商而异。
然而,随着人工智能应用的兴起,Boujelbene观察到OCS交换机越来越多地被部署在AI集群中,以充分利用其在提高性能和降低成本方面的独特优势。
标准化光传输技术
随着人工智能网络的快速发展,市场对支持更高速率以太网网络设备的需求正在迅速增长。特别是800G以太网,它采用了800ZR高速光传输技术,并且得益于OpenZR 行业倡议,该倡议旨在推动相干光收发器的互操作性标准化,800G以太网正成为市场的焦点。
思科通过其2021年以45亿美元收购的Acacia Communications的数据,展示了400G以太网领域的显著成长。400ZR技术在相干可插拔模块领域取得了巨大成功,吸引了众多供应商的参与,并在城域数据中心互连(DCI)场景中实现了400ZR QSFP-DD和OSFP模块的广泛部署。
IDC的最新报告预测,包括400ZR在内的网络级可插拔光学器件将在2024年迎来在通信服务提供商网络中的显著部署增长。Gartner进一步指出,随着人工智能数据中心间距离问题日益凸显,通过DCI技术有效连接这些分散的数据中心,已成为推动AI和光纤网络发展的关键因素。
为了实现这一目标,网络链路的容量必须随着AI应用的扩展而不断提升。目前,尽管单个波长上已经能够实现400千兆的传输能力,但业界仍在积极寻求在性能、成本、密度等多方面的进一步优化。随着技术的演进,初期产品可能已经针对特定工艺(例如5纳米)进行了优化。
AI集群规模不断扩大
Boujelbene强调,AI应用的增长速度正在以指数级加速,其处理参数量每2-3年增长1000倍。这一趋势导致AI集群规模迅速扩大,平均每两年翻两番,从256个扩展至1000个甚至4000个,目前有集群已达到32000至64000个加速器。
在OFC 2024(光纤通信会议)的博客文章中,Boujelbene提到,2023年的OFC推出了基于每波长200G技术的1.6Tbps光学元件与收发器。尽管业界普遍预计1.6Tbps技术的规模化出货将推迟到2025/2026年,但业界已经开始探索3.2Tbps技术,期望在OFC 2024上展示更多高性能产品。
AI集群内部带宽需求的爆炸式增长,以及追求更高速度所带来的功率消耗和成本上升,是业界紧迫感的根源。Dell’Oro Group发布的《AI工作负载用AI网络》报告预测,到2025年,AI网络中的多数端口将达到800Gbps,到2027年将跃升至1600Gbps。
尽管性能提升迅速,但这伴随着成本和能耗的显著增加。Boujelbene指出,为了应对这一挑战,对AI基础设施的大规模投资正在加速创新光学连接解决方案的研发,以满足AI集群的需求,同时有效控制成本和能耗。
LPO 与 CPO
尽管光学与AI网络领域的发展趋势引人注目,但目前业界更关注线性驱动可插拔光学器件(LPO)与共封装光学器件(CPO)之间的技术竞争。LPO的优势在于它能够在光模块间直接建立连接,无需依赖额外组件如数字信号处理器,从而简化了系统架构。而CPO则是将光学元件直接集成到交换机ASIC中。
业内专家普遍认为,这两种技术都能在光网络领域占据重要地位,因为它们都能降低功耗并提升带宽密度。然而,CPO由于技术集成度高而部署复杂,而LPO则因去除了部分非必要组件而有望简化部署流程。
今年,LPO技术获得了广泛的行业支持。3月,由思科、博通、英特尔、英伟达、Arista、AMD等12家核心光学供应商联合成立了线性可插拔光学多源协议小组(LPO MSA),积极推动LPO技术的发展。该小组正在开发一系列光网络设备,包括交换机、NIC以及以太网GPU等,以满足AI、高性能计算等领域对高速、高容量网络解决方案的需求。
LPO MSA主席Mark Nowell在声明中指出:“面对AI及高性能应用对网络功耗的严格要求,LPO技术通过显著降低模块与系统的功耗,同时保留可插拔接口的设计,为用户提供了大规模部署所需的经济性和灵活性。”
实际上,无论是LPO还是CPO,都旨在降低功耗,并可能在未来高速网络升级中减少成本。Boujelbene指出,多供应商支持、快速上市时间、良好的可维护性、可制造性以及可测试性是实现技术批量采用的关键。
由于LPO在保留可插拔外形尺寸的同时简化了设计,主要移除了DSP,因此在满足这些关键要求上相较于CPO更具优势。因此,预计LPO有望在CPO之前实现更广泛的商业部署。
原文链接:
https://www.networkworld.com/article/2501184/optical-networking-challenges-gain-attention-as-ai-networking-demands-rise.html
光是通信的必由之路,OCS已成功应用
AI产业背景下的2024年光通信市场展望
AIGC时代运营商新机遇
面向 AI 大模型的智算中心网络演进白皮书
觉得不错,就点亮“赞”和“在看”吧