AMD推出统一的UDNA GPU架构，以对抗英伟达CUDA生态

2024年09月10日

9月10日消息，据Tom's Hardware报道，在德国柏林举行的 IFA 2024 上，AMD 高级副总裁兼计算和图形业务集团总经理 Jack Huynh 宣布，公司将把以消费者为中心的 RDNA 和以数据中心为中心的 CDNA 架构统一到一个名为 UDNA 的微架构中，这将为公司更有效地处理英伟达（Nvidia）根深蒂固的 CUDA 生态系统奠定基础。该公告发布之际，AMD 已决定降低高端游戏显卡的优先级，以加速市场份额的增长。

当 AMD 在 2019 年从其 GCN 微架构转向时，该公司决定将其新的图形微架构拆分为两种不同的设计，其中 RDNA 旨在为消费市场的游戏图形产品提供支持，而 CDNA 架构则专为满足数据中心中以计算为中心的 AI 和 HPC 工作负载而设计。

Huynh 在与媒体的问答环节中解释了拆分背后的原因，以及推进新的统一设计的理由。我们还跟进了有关即将推出的体系结构的更多详细信息。以下是经过略微编辑的对话记录：

AMD 的 Jack Huynh [JH]：那么，AMD 重大变化的一部分是，今天我们的 Instinct 数据中心 GPU 采用了 CDNA 架构，而消费类产品则采用了 RDNA。它是分叉的。今后，我们将它称为 UDNA。将有一个统一的架构，包括 Instinct 和 Client [消费者]。我们将对其进行统一，以便开发人员比现在更容易，他们必须做出选择，而价值并没有提高。

我们分叉它，因为这样你就会得到子优化和微优化，但对于这些开发人员来说，这非常困难，尤其是当我们正在发展数据中心业务时，所以现在我们需要统一它。这是其中的一部分。因为还记得我之前说过的话吗？我正在考虑数百万开发人员;这就是我们想要达到的目标。第一步是达到数百、数千、数万、数十万，希望有一天能达到数百万。这就是我现在告诉球队的。这就是我们现在必须建立的规模。

Paul Alcorn：那么，随着 UDNA 将这些架构重新整合在一起，所有这些架构是否仍然向后兼容 RDNA 和 CDNA 拆分？

JH：所以，我们想做的一件事是......我们在 RDNA 方面犯了一些错误;每次我们更改 memory hierarchy（子系统）时，它都必须重置优化时的矩阵。我不想那样做。

因此，展望未来，我们考虑的不仅仅是 RDNA 5、RDNA 6、RDNA 7，还有 UDNA 6 和 UDNA 7。我们计划接下来的三代，因为一旦我们获得了优化，我就不想改变内存层次结构，然后我们就会失去很多优化。所以，我们在某种程度上强制要求解决完全向前和向后兼容性的问题。我们今天在 Xbox 上这样做;这是非常可行的，但需要提前规划。还有很多工作要做，但这就是我们要走的方向。

PA：当你把它带回一个统一的架构时，这意味着，需要明确的是，未来的台式机 GPU 将具有与 MI300X 等效项相同的架构？正确？

JH：这是一种云到客户端的策略。我认为这也将使我们非常高效。所以，你不是让两个团队来做这件事，而是让一个团队来做。它不会做那么疯狂的事情，对吧？我们分叉它是因为我们想在短期内进行微优化，但现在我们已经有了规模，我们必须统一起来，我相信这是正确的方法。可能会有一些小颠簸。

PA：那么，这次重新合并需要多长时间？我们还需要多少代产品才能看到这一点？

JH：我们还没有透露。这是一种策略。策略对我来说非常重要。我认为这是正确的策略。我们必须确保我们做的是正确的。事实上，当我们与开发人员交谈时，他们喜欢它，因为同样，他们有所有其他部门告诉他们也要做不同的事情。所以，我需要降低复杂性。

[...]从开发人员的角度来看，他们喜欢这种策略。他们实际上希望我们早点这样做，但当飞机在空中时，我不能更换发动机。我必须找到正确的方法来设定它，这样我就不会破坏东西。

[Huynh 的评论结束]

是的，高端芯片可以建立市场，但最终，软件支持往往会决定赢家和输家。Nvidia 已经向大师班传授了如何利用其无与伦比的专有 CUDA 生态系统构建看似坚不可摧的护城河。

Nvidia 在 18 年前从 CUDA 开始就开始奠定其帝国的基础，也许它最基本的优势之一由 CUDA 中的“U”表示，即计算统一设备架构。Nvidia 只有一个适用于所有用途的 CUDA 平台，它利用相同的底层微架构进行 AI、HPC 和游戏。

Huynh 告诉我，CUDA 拥有 400 万开发人员，他的目标是为 AMD 取得类似的成功铺平道路。这是一项艰巨的任务。AMD 继续依赖开源 ROCm 软件堆栈来对抗 Nvidia，但这需要用户和开源社区的支持，他们将承担优化堆栈的一些负担。AMD 可以做的任何事情来简化这项工作，即使代价是针对某些类型的应用程序/游戏进行一些微优化，也将有助于加速该生态系统。

AMD 因 ROCm 堆栈通常分散的功效而受到了相当多的批评。在 2022 年收购 Xilinx 时，AMD 甚至宣布将让时任 Xilinx 首席执行官的 Victor Peng 负责一个统一的 ROCm 团队，以更严格地控制该项目（Peng 最近退休）。这种努力至少取得了一些成果，但 AMD 继续因其 ROCm 堆栈的状态而受到批评——很明显，该公司还有很多工作要做，才能完全让自己能够与 Nvidia 的 CUDA 竞争。

尽管出现了 UXL 基金会，但该公司仍然专注于 ROCm，UXL 基金会是一个面向加速器的开放式软件生态系统，得到了业内其他参与者（如高通、三星、Arm 和英特尔）的广泛支持。

与当前的 RDNA 和 CDNA 拆分相比，UDNA 究竟会有什么变化？Huynh 没有详细介绍，显然还有很多基础工作需要打下。但是一个明显的潜在痛点是 RDNA 中缺乏专用的 AI 加速单元。从 2018 年开始，Nvidia 将 Tensor Core 引入整个 RTX 系列。AMD 在 RDNA 3 中只有有限的 AI 加速，基本上是通过 WMMA 指令以更优化的方式访问 FP16 单元，而 RDNA 2 则完全依赖 GPU 着色器进行此类工作。

我们的假设是，在某个时候，AMD 将通过 UDNA 为其 GPU 带来对张量运算的完整堆栈支持。自 2020 年以来，CDNA 一直拥有此类功能单元，CDNA 2 （2021）和 CDNA 3 （2023）增加了吞吐量和数字格式支持。鉴于如今在数据中心和客户端 GPU 上完成的 AI 工作占主导地位，因此为客户端 GPU 添加张量支持似乎是一项关键需求。

统一的 UDNA 架构是与 CUDA 竞争的下一个合乎逻辑的好步骤，但 AMD 还有一座山要爬。Huynh 不会承诺新架构的发布日期，但考虑到 AI 市场数十亿美元的风险，执行新的微架构战略显然将是重中之重。尽管如此，根据我们所听到的关于 AMD RDNA 4 的信息，UDNA 似乎至少还有一代的时间。

编辑：芯智讯-浪客剑