在LLama 3训练期间，英伟达H100和HBM3内存故障占据了一半

7月28日消息，Meta近期发布了目前全球最强的开源大模型LLAMA 3.1 405B，引发了业界的关注。近日，Meta发布了关于LLAMA 3.1 405B的研究文章，详细介绍了其在 16,384 个英伟达（NVIDIA）H100 80GB GPU 的集群上训练Llama 3.1 405B 模型所遇到的问题。

据介绍，LLAMA 3.1 405B在16,384 个 H100 80GB GPU 的集群上持续训练了54天，在此期间遇到了 419 个意外的组件故障，平均每三个小时就发生一次故障。其中一半的故障，都是由于GPU 或其板载 HBM3 内存问题。

超级计算机是极其复杂的设备，使用数以万计的处理器、数十万个其他芯片和数百英里的电缆连接在一起。在一台复杂的超级计算机中，每隔几个小时就会发生故障，这是正常的，开发人员的主要技巧是尽量确保系统保持正常运行，无论这种局部故障如何。

比如高达16,384个H100 GPU 训练的规模和同步性质使其容易失败。如果故障未得到正确缓解，单个 GPU 故障可能会中断整个训练作业，从而需要重启。然而，LLAMA 3 团队保持了超过90%的有效训练时间。

总结来说，在为期 54 天的训练中，有 466 次工作中断，其中 47 次是计划性的，419 次是意外的。计划内中断是由于自动化维护造成的，而意外的中断主要源于硬件问题。其中，GPU 问题是最大的一类，占意外中断的 58.7%。只有三起中断事件需要大量的人工干预，其余的则由自动化管理。

在 419 次意外中断中，148 次（30.1%）是由各种 GPU 故障（包括 NVLink 故障）引起的，而 72 次（17.2%）是由 HBM3 内存故障引起的，这并不奇怪，因为 Nvidia 的 H100 GPU 消耗约 700W 并承受大量热应力。有趣的是，在 54 天内只有两个 CPU 出现故障。

虽然 GPU 是最重要的组件，但恰好也很脆弱，但 41.3% 的意外中断是由多种因素引起的，包括软件错误、网络电缆和网络适配器。

为了提高效率，Meta 的团队减少了作业启动和检查点时间，并开发了专有的诊断工具。PyTorch 的 NCCL 飞行记录器被广泛用于快速诊断和解决挂起和性能问题，尤其是与 NCCLX 相关的问题。该工具可捕获集体元数据和堆栈跟踪，有助于快速解决问题。

编辑：芯智讯-浪客剑

内存自动化工具集群模型

0 人点赞