至少可以说,上个月非常令人兴奋!Dell'Oro有机会参加了业内最具影响力和最受瞩目的两个活动:NVDA GTC和OFC。
正如之前在Sameh Boujelbene的博客中所讨论的,我们一直预计 AI 网络将成为 OFC 2024 的焦点,并将加速创新性光连接解决方案的研发。这些解决方案旨在解决 AI 集群中带宽的爆炸性增长,同时应对成本和功耗挑战。GTC 2024 进一步浓墨重彩了这一点,在 GTC 2024 期间,英伟达发布了最新的 Blackwell B200 Tensor Core GPU,旨在支持万亿参数 AI 大语言模型。Blackwell B200 需要先进的 800 Gbps 网络,这与 AI Networks for AI Workloads report 中的预测完全一致。预计 AI 工作负载的流量每两年增长 10 倍,同时将比传统前端网络至少快两个速度升级周期。
虽然 OFC 讨论了众多主题和创新解决方案,包括数据中心间的应用以及用于扩大同一域内加速器数量的计算互连,但本文将主要关注数据中心内的应用。具体来说将专注于扩展连接(Scale Out)大型千卡人工智能集群中的加速节点所需的网络,该网络在业界通常被称为“AI后端网络”(也被一些供应商称为东西向流量网络)。
展会上探讨的一些主题和解决方案如下:
1) 线性驱动可插拔光模块LPO vs. 线性接收光模块LRO vs. 共封装光器件
预计可插拔光模块在系统级功耗中所占比例将越来越大。随着云服务供应商(SP) 基于大量的高速光模块搭建下一代 AI 网络,这个问题将进一步放大。
在 OFC 2023 上推出的线性驱动可插拔光模块 (LPO) 有望通过去除 DSP 来显著节省成本和功耗,从而引发了一系列测试活动。来到 OFC 2024,我们见证了近 20 场演示,主要参与者包括 Amphenol、Eoptolink、HiSense、Innolight 等。活动期间的交流表明,整个行业都对将高质量的 100G SerDes 集成到最新的 51.2 Tbps 网络交换机芯片中充满热情,许多人希冀利用这一提升能够从可插拔光模块中移除 DSP。
然而,尽管令人兴奋,但除了字节跳动和腾讯已经宣布计划在今年年底前测试这项技术,其他超大规模企业犹豫不决,这表明LPO可能还没有准备好大规模落地。超大规模企业在交流中很明显不愿承担LPO认证以及LPO潜在失败的责任,相反,他们表示更愿意让交换机供应商承担这些责任。
在此期间,预计 51.2 Tbps网络芯片的早期部署将继续利用可插拔光模块,至少到明年年中。然而,如果 LPO 能够展示大规模的稳定部署,同时为超大规模提供商提供显著的节能效果,也就是说使他们能够在每个机架上部署更多的加速器,那么部署落地的诱惑可能会是不可抗拒的。最终决定取决于LPO是否能够兑现这些承诺。
此外,展会上还讨论了半重定时线性光模块(HALO),也称为线性接收光模块(LRO)。LRO 仅在发射侧集成 DSP 芯片(而不像 LPO 将其完全移除)。我们的访谈显示,虽然 LPO 可能被证明是在 100G-PAM4 SerDes 下可行的,但在 200G-PAM4 SerDes 下它们可能会变得具有挑战性,这时可能需要 LRO。
与此同时,CPO 仍在开发中,Broadcom等大型行业参与者展示了该技术的持续演进。虽然我们相信当前的 LPO 和 LRO 解决方案肯定会有更早的上市时间,并具有与 CPO 类似的药效,但后者最终可能成为唯一能够在未来某个时候实现更高速度的解决方案。
在结束本节之前,我们不要忘记,在可能的情况下,铜缆将比上面讨论的所有光学连接选项更好。简单地说,能铜尽铜,无解上光。(参考阅读:关于数据中心网络CPO,你可以永远相信Andy)有趣的是,液冷会提升机架内加速器的致密化,从而增加用以连接同一机架内的各种加速器节点的铜的使用量。最近在 GTC 上发布的 NVIDIA GB200 NVL72 完美地表明了这一趋势。
2) 光交换
OFC 2024 有一些有趣的光交换 (OCS) 公告。OCS可以带来许多好处,包括高带宽和低网络延迟,以及显著的资本支出降低。这是因为OCS交换机可以显著减少网络中所需的电交换机数量,从而消除了与电交换机相关的昂贵的光到电再到光的转换。此外,与电交换机不同,OCS交换机与速度无关,当服务器采用下一代光收发器时,不一定需要升级。
然而,OCS是一项新技术,到目前为止,只有谷歌经过多年的发展,能够在其数据中心网络中大规模部署(参考阅读:SIGCOMM 2023:谷歌OCS光交换大功告成)。此外,OCS 交换机可能需要更改光纤的安装方式。出于这个原因,我们仍在关注除了谷歌之外,是否有其他云 SP 计划效仿并在网络中采用OCS交换机。
3) 通往 3.2 Tbps 的路径
在 OFC 2023 上,推出了许多基于 200G /lambda 的 1.6 Tbps 光学元件和收发器。在 OFC 2024 上,我们看到了这种 1.6 Tbps 光模块的进一步技术演示。虽然我们预计在 2025/2026 年之前不会有 1.6 Tbps 的出货量,但该行业已经开始努力探索实现 3.2 Tbps 的各种途径和选项。
考虑到从 100G-PAM4 电通道速度过渡到 200G-PAM4 时遇到的复杂问题,最初的 3.2 Tbps 解决方案可以在 OSFP-XD 外形尺寸中使用 16 个通道的 200G-PAM4,而不是 8 个通道的 400G-PAMx。值得注意的是,OSFP-XD 最初是两年前在 OFC 2022 上演示的,由于 AI 集群部署的紧迫性,它可能会重新投入使用。与 1.6 Tbps 相比,采用 OSFP-XD 外形尺寸的 3.2 Tbps 解决方案具有卓越的面板密度和成本节约。最终,业界有望找到一种基于 400G-PAMx SerDes 的 8 通道实现 3.2 Tbps 的方法,尽管实现这一目标可能需要一些时间。
总之,OFC 2024 展示了许多旨在应对共同挑战的潜在解决方案:成本、功耗和速度。我们预计不同的超大规模企业将做出不同的选择,从而实现市场多元化。然而,其中一个关键的考虑因素将是上市时间。需要注意的是,AI 后端网络的刷新周期通常在 18 到 24 个月左右,与用于连接通用服务器的传统前端网络中的 5 到 6 年相比要短得多。
原文地址:https://www.delloro.com/reflecting-on-gtc-and-ofc-2024-no-one-size-fits-all-but-time-to-market-is-key/