AMD Zen 5内核解析:IPC性能提升了16%!

7月15日消息,AMD近日在美国洛杉矶举行的技术日活动中,介绍了其全新的Zen 5 CPU架构,将会带来平均16%的每时钟指令数(IPC)性能提升,相关处理器产品将于7月底上市。

在今年6月初的Computex 2024展会上,AMD正式发布了基于全新的Zen5架构的Ryzen 9000系列桌面处理器(Granite Ridge)和面向笔记本电脑的Ryzen AI 300系列AI PC处理器(Strix Point)。

其中,Ryzen 9000系列当中的旗舰产品——Ryzen 9 9950X配备16核心32线程,170W TDP,最高主频5.7 GHz。而Ryzen AI 300系列的旗舰产品——Ryzen AI 9 HX 370的CPU为12核心24线程,包括4个Zen 5 内核和8个Zen 5C 内核,每个核心1MB二级缓存,三级缓存为24MB,最高主频5.1GHz。GPU不但升级架构,CU单元数量也从12个增至16个,命名为“Radeon 890M”。NPU算力则提升到了50TOPS,增加了2倍有余。

根据此前AMD公布的数据显示,与英特尔Core i9-14900K相比,AMD旗舰16核心Ryzen 9 9950X在游戏性能测试中的速度快4%到23%。在生产力性能测试中,9950X显示出更大的优势,比英特尔Core i9-14900K快7%至56%。同样Ryzen AI 300系列相比上代产品也带来的很大的性能提升。

当然,制程工艺、CPU核心数量、缓存容量和主频上的提升,都对于其CPU的性能提升带来了不小的助力,但是其中关键的性能提升则是来源于Zen 5 内核架构的提升。

Zen 5 内核带来了平均16%的IPC性能提升

据介绍,其 Zen 5 内核拥有 6 个 ALU,数量是上一代的 3 倍,采用了 48KB 的 12 路一级缓存,在浮点运算以及最大带宽上均是上代的 2 倍,并且Zen 5内核也同样支持完整版的 AVX-512 指令,从而在一些专业应用上有事半功倍的作用。得益于这些方面的提升,Zen 5的IPC性能比上一代的Zen 4 内核高出了10%-35%,平均提升了16%。

AMD表示,其Zen 5内核的每时钟指令数比上一代高出10%至35%

据AMD首席技术官Mark Papermaster介绍,Zen 5内核的最大改进之一是其前端,在其IPC整体性能提升当中的占比为39%。

具体来说,AMD已经扩大了前端,允许每个周期进行更多的分支预测——这是现代CPU内核性能的主要贡献者——并实施了双解码管道以及i-cache和op-cache改进,以遏制延迟并提高带宽。

Zen 5 这个更宽的前端与一个更大的整数执行引擎配对,该引擎现在每个周期中最多支持8条指令——调度和报废,而上代的Zen 4 只有6条指令。AMD 还将算术逻辑单元 (ALU) 的数量从 4 个增加到 6 个,还有3个乘法器,并实施了更统一的调度程序,以提高执行效率。

为了减少错误预测增加的可能性,AMD还将Zen 5的执行窗口延长了约40%。“它的作用是带来新的性能水平,因为它与这些前端进步相结合......它允许我们使用这些指令,并利用通过管道向我们提供的改进预测,“Papermaster 解释道。

Zen 5 的 IPC 性能增长当中,约 27% 可归因于后端数据带宽的增加。与上一代相比,AMD 将 L1 数据缓存从 32KB 提升到 48KB,并将 L1 和浮点单元的最大带宽增加了一倍。

关键的一点是,AMD不仅对分支预测器或执行引擎进行了优化,还试图平衡内核的每个元素,以避免瓶颈或增加延迟。其结果是,器核心可以比前几代更快地消化更多指令。

Zen 5 内核所带来的最大的IPC提升,在于其改进了AVX-512指令的实施,对于AVX-512矢量扩展进行了重新设计,以提供完整的512位数据路径,使得其在AVX-512 矢量扩展的工作负载中表现更为出色。

虽然 Papermaster 声称 Zen 5 现在可以运行完整的 AVX-512 工作负载而不会受到频率损失,但这些指令在历史上一直运行得非常热。这在台式机或工作站上没什么大不了的,但对于散热空间有限的笔记本电脑来说并不理想。所以对于“Strix Point”系列移动芯片,AMD则是坚持使用“double-pumped” AVX-512来实现——可能会针对每瓦性能和散热限制进行优化。相比之下,上代的Zen 4 则是“double-pumped” AVX-256。

此外,Papermaster 还强调了了AVX-512 工矢量扩展在 CPU 上运行AI工作负载的潜力。在机器学习方面,AMD声称单核Zen 5 性能比Zen 4 提高了32%,在AES-XTS 加密算法性能上也提升了35%。特别是在其移动芯片方面,AMD强调了在每个领域运行机器学习的概念,而不仅仅是在集成GPU或NPU上。

AMD表示 Zen 5 架构将会应用于各个领域,除了桌面与移动处理器之外,包括 EPYC 霄龙处理器以及嵌入式处理器等都将采用 Zen 5 架构,从而让企业部署更加得心应手。

在AMD的技术日披露中,其Zen 5和紧凑型Zen 5C 内核在功能方面在架构上基本保持相同,只不过较小的 Zen 5C 内核可以以较低的频率换取更高的性能密度。

据介绍,首批基于 Zen 5 内核的处理器系列(Ryzen 9000系列和Ryzen AI 300系列处理器)将于 7 月 31 日上市。但是基于Zen 5 内核的数据中心处理器可能必须等待更长的时间才能到达。

根据之前曝光的信息显示,在第5代 Epyc服务器处理器,预计将会采用台积电3nm制程,并将具有192个CPU内核和384个线程。与此同时,频率优化的“Turin”可能会有128 个内核和256 个线程。

竞争白热化

在Zen 5 内核推出之际,AMD 正面临多年来最激烈的竞争。因为高通公司推出了一款强大的基于 Arm 架构的Windows笔记本电脑芯片,而英特尔也准备在其至强和酷睿产品系列中推出一系列改进的CPU。

在客户端领域,高通具有45TOPS NPU算力的骁龙处理器使其在微软的Copilot + AI PC推动中处于领先地位。AMD的具备50TOPS NPU算力的Ryzen AI 300系列则希望带来更多竞争优势。但是,英特尔即将上市的Lunar Lake则具有48TOPS NPU算力,AI综合算力更是高达120TOPS。显然,AMD的Ryzen AI 300在与英特尔Lunar Lake的竞争当中,可能并没有多少优势。

在数据中心领域也有类似的情况,随着英特尔 144 核 Sierra Forest 和即将推出的 128 核 Granite Rapids Xeon 6 平台的推出,AMD在该市场也面临更加激烈的竞争。英特尔Xeon 6系列除了架构转向了全大核和全小核,也转向新的小芯片架构,并且这些芯片也升级到了Intel 3 制程工艺。

与此同时,越来越多的云服务提供商也在自研基于Arm 架构的定制芯片,来处理其超大规模工作负载。比如亚马逊的Graviton 现在已经是发展到了第四代,并普遍可用。此外,谷歌、阿里云、百度、微软、Meta也都已开始部署或研发自己的Arm架构服务器芯片。

编辑:芯智讯-浪客剑    资料来源:the register、anandtech

0

付费内容

查看我的付费内容