摘要
本文挑战了用以训练大型语言模型 (LLM) 而构建any-to-any网络的既定范式。实验表明,LLM 表现出一种独特的通信模式,想要实现接近最佳的训练性能,其中只有一小部分 GPU 需要在其中进行高带宽any-to-any通信,而这些 GPU 组间的通信量很少,稀疏且同质。
我们提出了一种与LLM的通信要求非常相似的新网络架构。我们的架构将集群划分为 GPU 组,这些 GPU 间通过非阻塞any-to-any高带宽互连(我们称之为 HB 域)。在 HB 域间,网络仅连接具有通信需求的 GPU,我们将该网络称为“rail-only”连接。
结果表明,与最先进的any-to-any Clos 网络相比,我们提出的架构可将网络成本降低高达 75%,而不会影响 LLM 训练的性能。
网络架构
成本分析
5、讨论
LLM趋势。随着摩尔定律的放缓,当前LLM 计算需求的增长速度超过了AI加速器和网络速度的提升,所以我们需要超大规模集群和更高效的互联。我们放弃any-to-any网络连接是在满足LLM训练网络要求的同时支撑LLM增长趋势的第一步。我们也感谢在不影响性能的情况下减少语言模型的大小和资源需求的持续努力[44],这些工作补充了我们的工作,因为我们的方向是减少网络资源并保持性能,即使对于较小的语言模型和集群也是如此。
LLM推理。本文探讨了LLM的训练工作量,但推理代表了LLM产品周期的另一个重要部分。推理比训练需要更少的计算资源,因为只有少量数据通过 LLM 并且只计算前向传播 [45]。因此,每个 HB 域自然成为一个推理服务域,并且rail-only连接有助于负载平衡多个推理域。对 LLM 推理的详细研究留给未来的工作。
直连网络拓扑。正如第 4 节中提到的,数据中心运营商可以利用直连网络用于rail间的互联[41,16,17]。为了最大限度地提高此类设计的有效性,我们建议通过 NIC 接口拆分来增加连接到每个 GPU 的网络接口数量 [16]。此外,我们建议使用可重新配置的光交换机为跨 HB 域的互连提供更大的灵活性。这种设计还允许为与 LLM 不同工作任务重新配置跨rail的连接。我们相信,将我们提出的设计与光学可重构网络交换机相结合,开辟了 AI-ML 集群的新研究路线。(参考阅读:谷歌Apollo:价值30亿美元的数据中心网络游戏规则改变者)
其它 ML 任务和限制。尽管我们提出的rail-only架构主要针对LLM的网络设计,但与其它工作相结合,我们的设计对于许多其他 DNN 任务来说也是高效的。最新研究试图使并行化策略和集体通信算法对任何 DNN 模型都具有带宽感知能力 [8, 46],这些模型已经产生了类似于 LLM 的流量模式。对于需要 GPU 跨rail存在少量流量的并行化策略,集群可以使用第 3 节中描述的转发。我们设计的主要挑战是所有 GPU 之间的all-to-all通信,这通常出现在具有大量嵌入表 [47, 34]的推荐模型中。转发方案会引起拥塞并降低all-to-all流量的性能。我们认为all-to-all流量是机器学习工作负载中最具挑战性的流量模式之一。一些潜在的解决方案包括通过over-subscribed网络重新引入小的any-to-any容量、利用快速可重新配置的网络结构,以及通过调整机器学习模型本身减少最初生成的all-to-all流量。
容错性。初看上去rail-only设计的容错能力可能比标准 Clos 网络要差。但是,假设任一网络中的rail交换机发生故障,连接到故障交换机的所有 GPU 将变得不可用,从而使两种拓扑在rail交换机的容错方面相同。相反,我们的设计对交换机需求更少,这自然减少了故障点。数据中心运营商可以通过添加额外的rail道交换机来增加冗余容量,并且与最先进的any-to-any网络设计相比,我们的设计仍然更具成本效益。直连网络还可以提高容错能力,因为即使控制平面发生故障,光交换机也可能保持工作。(参考阅读:智算中心网络架构设计白皮书)
6、结论
本文挑战了专门用于训练大型语言模型的 GPU 集群的传统any-to-any网络架构。我们提出了一种名为“rail-only”的新架构,它符合LLM的独特特征和需求,可降低高达 75% 的成本,同时保持与当前最先进的 Clos 网络相同的性能。
相关阅读: