在LLama 3训练期间平均每3小时发生一次故障,英伟达H100 GPU和HBM3内存故障占据了一半

7月28日消息,Meta近期发布了目前全球最强的开源大模型LLAMA 3.1 405B,引发了业界的关注。近日,Meta发布了关于LLAMA 3.1 405B的研究文章,详细介绍了其在 16,384 个 英伟达(NVIDIA)H100 80GB GPU 的集群上训练Llama 3.1 405B 模型所遇到的问题。

据介绍,LLAMA 3.1 405B在16,384 个 H100 80GB GPU 的集群上持续训练了54天,在此期间遇到了 419 个意外的组件故障,平均每三个小时就发生一次故障。其中一半的故障,都是由于GPU 或其板载 HBM3 内存问题。

超级计算机是极其复杂的设备,使用数以万计的处理器、数十万个其他芯片和数百英里的电缆连接在一起。在一台复杂的超级计算机中,每隔几个小时就会发生故障,这是正常的,开发人员的主要技巧是尽量确保系统保持正常运行,无论这种局部故障如何。

比如高达16,384个H100 GPU 训练的规模和同步性质使其容易失败。如果故障未得到正确缓解,单个 GPU 故障可能会中断整个训练作业,从而需要重启。然而,LLAMA 3 团队保持了超过90%的有效训练时间。

总结来说,在为期 54 天的训练中,有 466 次工作中断,其中 47 次是计划性的,419 次是意外的。计划内中断是由于自动化维护造成的,而意外的中断主要源于硬件问题。其中,GPU 问题是最大的一类,占意外中断的 58.7%。只有三起中断事件需要大量的人工干预,其余的则由自动化管理。

LLama 3

在 419 次意外中断中,148 次 (30.1%) 是由各种 GPU 故障(包括 NVLink 故障)引起的,而 72 次 (17.2%) 是由 HBM3 内存故障引起的,这并不奇怪,因为 Nvidia 的 H100 GPU 消耗约 700W 并承受大量热应力。有趣的是,在 54 天内只有两个 CPU 出现故障。

虽然 GPU 是最重要的组件,但恰好也很脆弱,但 41.3% 的意外中断是由多种因素引起的,包括软件错误、网络电缆和网络适配器。

为了提高效率,Meta 的团队减少了作业启动和检查点时间,并开发了专有的诊断工具。PyTorch 的 NCCL 飞行记录器被广泛用于快速诊断和解决挂起和性能问题,尤其是与 NCCLX 相关的问题。该工具可捕获集体元数据和堆栈跟踪,有助于快速解决问题。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容