作为开放标准的坚定支持者,英伟达的竞争对手Tenstorrent的首席执行官、传奇CPU设计师Jim Keller近日在社交平台X上表示,英伟达本应在基于Blackwell的GB200 GPU中使用以太网协议芯片对芯片进行连接,以用于AI(人工智能)和HPC。
Keller认为,这本可以为英伟达及其硬件用户节省大量资金。这也会让这些客户更容易将软件迁移到不同的硬件平台,而英伟达并不一定想要这些平台。
当英伟达推出用于AI和HPC应用的GB200 GPU时,该公司主要专注于其人工智能性能和高级内存子系统,几乎没有透露该设备是如何制造的。同时,英伟达的GB200 GPU包括两个计算处理器,它们使用台积电的CoWoS-L封装技术和使用专有协议的NVLink互连技术缝合在一起。对于那些已经使用英伟达硬件和软件的人来说,这不是一个问题,但这对从英伟达平台移植软件的行业构成了挑战。
Jim Keller建议英伟达应该使用以太网协议而不是专有的NVLink是有原因的。英伟达的平台使用专有的低延迟NVLink进行芯片到芯片和服务器到服务器的通信(与顶部带有CXL协议的PCIe竞争),并使用专有的InfiniBand连接进行更高层的通信。为了最大限度地提高性能,软件针对这两种技术的特点进行了调整。出于显而易见的原因,这可能会使软件移植到其他硬件平台变得有些复杂,这对英伟达有利,但并不完全适合其竞争对手。
不过,还是有问题的。以太网在硬件和软件层面上都是一种无处不在的技术,它是英伟达数据中心低延迟和高带宽(高达200 GbE)InfiniBand互连的竞争对手。就性能而言,以太网(尤其是下一代400 GbE和800 GbE)可以与InfiniBand竞争。
然而,InfiniBand在AI和HPC的功能以及优越的尾部延迟方面仍有一些优势,因此有人可能会说以太网的功能不适合新兴的AI和HPC工作负载。与此同时,以AMD、博通、英特尔、Meta、微软和甲骨文为首的该行业正在开发超以太网互连技术,准备为人工智能和HPC通信提供更高的吞吐量和功能。当然,在这类工作负载方面,超以太网将成为英伟达的InfiniBand更可行的竞争对手。
英伟达还面临着其CUDA软件平台主导地位的挑战,因此出现了广受行业支持的统一加速器基金会(UXL),这是一个包括Arm、英特尔、高通和三星等在内的行业联盟,旨在提供CUDA的替代方案。
当然,英伟达需要开发数据中心平台,以便在此时此地使用,这可能至少是其在专有技术上花费数十亿美元的愿望的一部分。如果PCIe with CXL和Ultra Ethernet等开放标准技术在性能和功能方面超过英伟达专有的NVLink和InfiniBand技术,英伟达将不得不重新开发其平台,因此Keller建议(或巨魔)英伟达应该采用以太网。然而,这可能需要几年的时间,因此目前,英伟达的设计仍在继续利用专有互连。
编辑:芯智讯-林子 来源:tomshardware