英伟达DGX GB200 NVL72面临过热问题,或将导致设计更改和延迟发货

英伟达DGX GB200 NVL72面临过热问题,或将导致设计更改和延迟发货

11月18日消息,据 The Information 报道,英伟达(Nvidia)最新一代的 Blackwell GPU在安装在大容量服务器机架中时,正面临过热的重大挑战,这些问题甚至导致了设计更改和发货延迟,并引起了 Google、Meta 和 Microsoft 等头部客户对他们能否按时部署基于 Blackwell GPU的AI服务器的担忧。

据与 The Information 交谈的知情人士称,英伟达用于 AI 和 HPC 的 Blackwell GPU 在内部配备 72 个处理器的服务器——DGX GB200 NVL72中使用时会过热。预计这些机器每个机架的功耗高达 120kW。这些问题导致英伟达多次重新评估其服务器机架的设计,因为过热会限制 GPU 性能并有可能损坏组件。客户也担心这些挫折可能会阻碍他们在数据中心部署新处理器的时间表。

报道称,英伟达已指示其供应商对机架进行多项设计更改,以抵消过热问题。英伟达正与其供应商和合作伙伴密切合作,开发工程修订版以改善服务器冷却。虽然这些调整是此类大规模技术发布的标准,但它们仍然增加了延迟,进一步推迟了预期的发货日期。

为了应对延迟和过热问题,英伟达发言人强调,其与云服务提供商的合作努力,并将设计更改描述为正常开发过程的一部分。与云服务提供商和供应商的合作伙伴关系旨在确保最终产品满足性能和可靠性预期,因为英伟达将继续致力于解决这些技术挑战。

值得一提的是,此前由于Blackwell GPU的设计缺陷,导致了其量产的推迟。这主要是由于英伟达的 Blackwell B100 和 B200 GPU 使用台积电的 CoWoS-L 封装技术来连接他们的两个小芯片。该设计包括一个带有本地硅互连 (LSI) 桥接器的 RDL 中介层,支持高达 10 TB/s 的数据传输速度。这些 LSI 电桥的精确定位对于该技术按预期运行至关重要。然而,GPU 小芯片、LSI 桥接器、RDL 中介层和主板基板的热膨胀特性不匹配,导致翘曲和系统故障。据报道,为了解决这个问题,英伟达修改了 GPU 芯片的顶部金属层和凸块结构,以提高生产可靠性。尽管 英伟达从未透露有关这些更改的具体细节,但它指出,作为修复的一部分,新的光罩是必要的。

因此,Blackwell GPU 的最终版本仅在 10 月下旬才进入量产,这意味着英伟达将能够从 1 月下旬开始发货这些处理器。

英伟达的客户,包括 Google、Meta 和 Microsoft 等科技巨头,都使用英伟达的 GPU 来训练他们最强大的大型语言模型。Blackwell GPU 的延迟自然会影响英伟达客户的计划和产品。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容