9月10日消息,据Tom's Hardware报道,在德国柏林举行的 IFA 2024 上,AMD 高级副总裁兼计算和图形业务集团总经理 Jack Huynh 宣布,公司将把以消费者为中心的 RDNA 和以数据中心为中心的 CDNA 架构统一到一个名为 UDNA 的微架构中,这将为公司更有效地处理英伟达(Nvidia)根深蒂固的 CUDA 生态系统奠定基础。该公告发布之际,AMD 已决定降低高端游戏显卡的优先级,以加速市场份额的增长。
当 AMD 在 2019 年从其 GCN 微架构转向时,该公司决定将其新的图形微架构拆分为两种不同的设计,其中 RDNA 旨在为消费市场的游戏图形产品提供支持,而 CDNA 架构则专为满足数据中心中以计算为中心的 AI 和 HPC 工作负载而设计。
Huynh 在与媒体的问答环节中解释了拆分背后的原因,以及推进新的统一设计的理由。我们还跟进了有关即将推出的体系结构的更多详细信息。以下是经过略微编辑的对话记录:
AMD 的 Jack Huynh [JH]:那么,AMD 重大变化的一部分是,今天我们的 Instinct 数据中心 GPU 采用了 CDNA 架构,而消费类产品则采用了 RDNA。它是分叉的。今后,我们将它称为 UDNA。将有一个统一的架构,包括 Instinct 和 Client [消费者]。我们将对其进行统一,以便开发人员比现在更容易,他们必须做出选择,而价值并没有提高。
我们分叉它,因为这样你就会得到子优化和微优化,但对于这些开发人员来说,这非常困难,尤其是当我们正在发展数据中心业务时,所以现在我们需要统一它。这是其中的一部分。因为还记得我之前说过的话吗?我正在考虑数百万开发人员;这就是我们想要达到的目标。第一步是达到数百、数千、数万、数十万,希望有一天能达到数百万。这就是我现在告诉球队的。这就是我们现在必须建立的规模。
Paul Alcorn:那么,随着 UDNA 将这些架构重新整合在一起,所有这些架构是否仍然向后兼容 RDNA 和 CDNA 拆分?
JH:所以,我们想做的一件事是......我们在 RDNA 方面犯了一些错误;每次我们更改 memory hierarchy(子系统)时,它都必须重置优化时的矩阵。我不想那样做。
因此,展望未来,我们考虑的不仅仅是 RDNA 5、RDNA 6、RDNA 7,还有 UDNA 6 和 UDNA 7。我们计划接下来的三代,因为一旦我们获得了优化,我就不想改变内存层次结构,然后我们就会失去很多优化。所以,我们在某种程度上强制要求解决完全向前和向后兼容性的问题。我们今天在 Xbox 上这样做;这是非常可行的,但需要提前规划。还有很多工作要做,但这就是我们要走的方向。
PA:当你把它带回一个统一的架构时,这意味着,需要明确的是,未来的台式机 GPU 将具有与 MI300X 等效项相同的架构?正确?
JH:这是一种云到客户端的策略。我认为这也将使我们非常高效。所以,你不是让两个团队来做这件事,而是让一个团队来做。它不会做那么疯狂的事情,对吧?我们分叉它是因为我们想在短期内进行微优化,但现在我们已经有了规模,我们必须统一起来,我相信这是正确的方法。可能会有一些小颠簸。
PA:那么,这次重新合并需要多长时间?我们还需要多少代产品才能看到这一点?
JH:我们还没有透露。这是一种策略。策略对我来说非常重要。我认为这是正确的策略。我们必须确保我们做的是正确的。事实上,当我们与开发人员交谈时,他们喜欢它,因为同样,他们有所有其他部门告诉他们也要做不同的事情。所以,我需要降低复杂性。
[...]从开发人员的角度来看,他们喜欢这种策略。他们实际上希望我们早点这样做,但当飞机在空中时,我不能更换发动机。我必须找到正确的方法来设定它,这样我就不会破坏东西。
[Huynh 的评论结束]
是的,高端芯片可以建立市场,但最终,软件支持往往会决定赢家和输家。Nvidia 已经向大师班传授了如何利用其无与伦比的专有 CUDA 生态系统构建看似坚不可摧的护城河。
Nvidia 在 18 年前从 CUDA 开始就开始奠定其帝国的基础,也许它最基本的优势之一由 CUDA 中的“U”表示,即计算统一设备架构。Nvidia 只有一个适用于所有用途的 CUDA 平台,它利用相同的底层微架构进行 AI、HPC 和游戏。
Huynh 告诉我,CUDA 拥有 400 万开发人员,他的目标是为 AMD 取得类似的成功铺平道路。这是一项艰巨的任务。AMD 继续依赖开源 ROCm 软件堆栈来对抗 Nvidia,但这需要用户和开源社区的支持,他们将承担优化堆栈的一些负担。AMD 可以做的任何事情来简化这项工作,即使代价是针对某些类型的应用程序/游戏进行一些微优化,也将有助于加速该生态系统。
AMD 因 ROCm 堆栈通常分散的功效而受到了相当多的批评。在 2022 年收购 Xilinx 时,AMD 甚至宣布将让时任 Xilinx 首席执行官的 Victor Peng 负责一个统一的 ROCm 团队,以更严格地控制该项目(Peng 最近退休)。这种努力至少取得了一些成果,但 AMD 继续因其 ROCm 堆栈的状态而受到批评——很明显,该公司还有很多工作要做,才能完全让自己能够与 Nvidia 的 CUDA 竞争。
尽管出现了 UXL 基金会,但该公司仍然专注于 ROCm,UXL 基金会是一个面向加速器的开放式软件生态系统,得到了业内其他参与者(如高通、三星、Arm 和英特尔)的广泛支持。
与当前的 RDNA 和 CDNA 拆分相比,UDNA 究竟会有什么变化?Huynh 没有详细介绍,显然还有很多基础工作需要打下。但是一个明显的潜在痛点是 RDNA 中缺乏专用的 AI 加速单元。从 2018 年开始,Nvidia 将 Tensor Core 引入整个 RTX 系列。AMD 在 RDNA 3 中只有有限的 AI 加速,基本上是通过 WMMA 指令以更优化的方式访问 FP16 单元,而 RDNA 2 则完全依赖 GPU 着色器进行此类工作。
我们的假设是,在某个时候,AMD 将通过 UDNA 为其 GPU 带来对张量运算的完整堆栈支持。自 2020 年以来,CDNA 一直拥有此类功能单元,CDNA 2 (2021) 和 CDNA 3 (2023) 增加了吞吐量和数字格式支持。鉴于如今在数据中心和客户端 GPU 上完成的 AI 工作占主导地位,因此为客户端 GPU 添加张量支持似乎是一项关键需求。
统一的 UDNA 架构是与 CUDA 竞争的下一个合乎逻辑的好步骤,但 AMD 还有一座山要爬。Huynh 不会承诺新架构的发布日期,但考虑到 AI 市场数十亿美元的风险,执行新的微架构战略显然将是重中之重。尽管如此,根据我们所听到的关于 AMD RDNA 4 的信息,UDNA 似乎至少还有一代的时间。
编辑:芯智讯-浪客剑