AMD Zen 5内核解析：IPC性能提升了16%！

2024年07月15日

7月15日消息，AMD近日在美国洛杉矶举行的技术日活动中，介绍了其全新的Zen 5 CPU架构，将会带来平均16%的每时钟指令数（IPC）性能提升，相关处理器产品将于7月底上市。

在今年6月初的Computex 2024展会上，AMD正式发布了基于全新的Zen5架构的Ryzen 9000系列桌面处理器（Granite Ridge）和面向笔记本电脑的Ryzen AI 300系列AI PC处理器（Strix Point）。

其中，Ryzen 9000系列当中的旗舰产品——Ryzen 9 9950X配备16核心32线程，170W TDP，最高主频5.7 GHz。而Ryzen AI 300系列的旗舰产品——Ryzen AI 9 HX 370的CPU为12核心24线程，包括4个Zen 5 内核和8个Zen 5C 内核，每个核心1MB二级缓存，三级缓存为24MB，最高主频5.1GHz。GPU不但升级架构，CU单元数量也从12个增至16个，命名为“Radeon 890M”。NPU算力则提升到了50TOPS，增加了2倍有余。

根据此前AMD公布的数据显示，与英特尔Core i9-14900K相比，AMD旗舰16核心Ryzen 9 9950X在游戏性能测试中的速度快4%到23%。在生产力性能测试中，9950X显示出更大的优势，比英特尔Core i9-14900K快7%至56%。同样Ryzen AI 300系列相比上代产品也带来的很大的性能提升。

当然，制程工艺、CPU核心数量、缓存容量和主频上的提升，都对于其CPU的性能提升带来了不小的助力，但是其中关键的性能提升则是来源于Zen 5 内核架构的提升。

Zen 5 内核带来了平均16%的IPC性能提升

据介绍，其 Zen 5 内核拥有 6 个 ALU，数量是上一代的 3 倍，采用了 48KB 的 12 路一级缓存，在浮点运算以及最大带宽上均是上代的 2 倍，并且Zen 5内核也同样支持完整版的 AVX-512 指令，从而在一些专业应用上有事半功倍的作用。得益于这些方面的提升，Zen 5的IPC性能比上一代的Zen 4 内核高出了10%-35%，平均提升了16%。

据AMD首席技术官Mark Papermaster介绍，Zen 5内核的最大改进之一是其前端，在其IPC整体性能提升当中的占比为39%。

具体来说，AMD已经扩大了前端，允许每个周期进行更多的分支预测——这是现代CPU内核性能的主要贡献者——并实施了双解码管道以及i-cache和op-cache改进，以遏制延迟并提高带宽。

Zen 5 这个更宽的前端与一个更大的整数执行引擎配对，该引擎现在每个周期中最多支持8条指令——调度和报废，而上代的Zen 4 只有6条指令。AMD 还将算术逻辑单元（ALU）的数量从 4 个增加到 6 个，还有3个乘法器，并实施了更统一的调度程序，以提高执行效率。

为了减少错误预测增加的可能性，AMD还将Zen 5的执行窗口延长了约40%。“它的作用是带来新的性能水平，因为它与这些前端进步相结合......它允许我们使用这些指令，并利用通过管道向我们提供的改进预测，“Papermaster 解释道。

Zen 5 的 IPC 性能增长当中，约 27% 可归因于后端数据带宽的增加。与上一代相比，AMD 将 L1 数据缓存从 32KB 提升到 48KB，并将 L1 和浮点单元的最大带宽增加了一倍。

关键的一点是，AMD不仅对分支预测器或执行引擎进行了优化，还试图平衡内核的每个元素，以避免瓶颈或增加延迟。其结果是，器核心可以比前几代更快地消化更多指令。

Zen 5 内核所带来的最大的IPC提升，在于其改进了AVX-512指令的实施，对于AVX-512矢量扩展进行了重新设计，以提供完整的512位数据路径，使得其在AVX-512 矢量扩展的工作负载中表现更为出色。

虽然 Papermaster 声称 Zen 5 现在可以运行完整的 AVX-512 工作负载而不会受到频率损失，但这些指令在历史上一直运行得非常热。这在台式机或工作站上没什么大不了的，但对于散热空间有限的笔记本电脑来说并不理想。所以对于“Strix Point”系列移动芯片，AMD则是坚持使用“double-pumped” AVX-512来实现——可能会针对每瓦性能和散热限制进行优化。相比之下，上代的Zen 4 则是“double-pumped” AVX-256。

此外，Papermaster 还强调了了AVX-512 工矢量扩展在 CPU 上运行AI工作负载的潜力。在机器学习方面，AMD声称单核Zen 5 性能比Zen 4 提高了32%，在AES-XTS 加密算法性能上也提升了35%。特别是在其移动芯片方面，AMD强调了在每个领域运行机器学习的概念，而不仅仅是在集成GPU或NPU上。

AMD表示 Zen 5 架构将会应用于各个领域，除了桌面与移动处理器之外，包括 EPYC 霄龙处理器以及嵌入式处理器等都将采用 Zen 5 架构，从而让企业部署更加得心应手。

在AMD的技术日披露中，其Zen 5和紧凑型Zen 5C 内核在功能方面在架构上基本保持相同，只不过较小的 Zen 5C 内核可以以较低的频率换取更高的性能密度。

据介绍，首批基于 Zen 5 内核的处理器系列（Ryzen 9000系列和Ryzen AI 300系列处理器）将于 7 月 31 日上市。但是基于Zen 5 内核的数据中心处理器可能必须等待更长的时间才能到达。

根据之前曝光的信息显示，在第5代 Epyc服务器处理器，预计将会采用台积电3nm制程，并将具有192个CPU内核和384个线程。与此同时，频率优化的“Turin”可能会有128 个内核和256 个线程。

竞争白热化

在Zen 5 内核推出之际，AMD 正面临多年来最激烈的竞争。因为高通公司推出了一款强大的基于 Arm 架构的Windows笔记本电脑芯片，而英特尔也准备在其至强和酷睿产品系列中推出一系列改进的CPU。

在客户端领域，高通具有45TOPS NPU算力的骁龙处理器使其在微软的Copilot + AI PC推动中处于领先地位。AMD的具备50TOPS NPU算力的Ryzen AI 300系列则希望带来更多竞争优势。但是，英特尔即将上市的Lunar Lake则具有48TOPS NPU算力，AI综合算力更是高达120TOPS。显然，AMD的Ryzen AI 300在与英特尔Lunar Lake的竞争当中，可能并没有多少优势。

在数据中心领域也有类似的情况，随着英特尔 144 核 Sierra Forest 和即将推出的 128 核 Granite Rapids Xeon 6 平台的推出，AMD在该市场也面临更加激烈的竞争。英特尔Xeon 6系列除了架构转向了全大核和全小核，也转向新的小芯片架构，并且这些芯片也升级到了Intel 3 制程工艺。

与此同时，越来越多的云服务提供商也在自研基于Arm 架构的定制芯片，来处理其超大规模工作负载。比如亚马逊的Graviton 现在已经是发展到了第四代，并普遍可用。此外，谷歌、阿里云、百度、微软、Meta也都已开始部署或研发自己的Arm架构服务器芯片。

编辑：芯智讯-浪客剑资料来源：the register、anandtech