AMD Zen5 内核详解：架构全面提升，IPC性能增长16%

2024年08月28日

8月28日消息，在Hot Chips 2024大会第二日活动上，处理器大厂AMD详细介绍了AMD Rzyen 9000系列和 Rzyen AI 300系所搭载的Zen 5 内核。

根据AMD的目标，Zen 5内核架构的IPC性能相比上代提升16%。因此，AMD对于Zen 5架构进行多方面的改进。不仅采用了全新的前端设计，拥有更宽的执行窗口和重新设计的指令提取、译码、分发单元，让Zen 5架构可以在每个时钟周期执行更多指令，对应的微操缓存和寄存器带宽也对进行了增大。Zen 5 架构还拥有完整的512-bit FPU执行模块，可以提高运行AVX512/VNNI指令大语言模型的AI效率。

前端部分，Zen 5架构主要优化了分支预测和预取单元，并将译码管道升级为两组4 inst/cycle并行操作，分发单元（Dispatch）和微操缓存（Op Cache）也对应升级为8-wide和6-wide x 2，主要是为了增加每个时钟周期，前端流水线可以同时处理的指令数。

Zen 5的译码（Decode）和分发单元（Dispatch）都是8-wide/cycle，而现在Rename（重命名）和Retire（回退）寄存器同样也是8-wide/cycle，这保持了流水线增宽的统一效率。增宽的流水线让Zen5架构可以设计更多执行单元，Zen 4时候是4个ALU和3个AGU，Zen 5则增加至6个ALU和4个AGU，理论上能提高50%的运算吞吐量。

Zen5架构在浮点单元部分采用了完整的512-bit FPU以及与其位宽匹配的流水线管道，之前的Zen 4架构其实也支持AVX512指令集，但主要是通过2个256-bit FPU单元在两个时钟周期合并执行，算力和效率和完整的512-bit都要差不少。AMD在Zen 5上花费大量核心面积来提升AVX 512的性能，主要是AI大语言模型能够使用AVX512/VNNI指令，为AI路线强化产品竞争力。

Zen 5的存取单元从Zen 4的8路32KB L1 D-Cache提高到12路48KB D-Cache，指令操作数也从每周期3 load/2 store提高到4 load/2 store，更大的存取队列和更大的D-TLB页目数一定程度上降低了缓存Miss的概率。

下图揭示了Zen 5 的缓存层次结构以及芯片的布局。

AMD还推出了更低的高速缓存和更低的时钟频率的Zen 5c内核，这些内核针对能效进行了更多优化。

以下是Zen 5 ISA的新特性：

Zen 5的能效也是关注的重点：

Zen 5架构与Zen 4架构的对比：

总体来看，Zen 5的IPC性能相比Zen 4 提升了16%。

AMD还展示了即将推出的基于Zen 5架构的128个核心的Turin服务器芯片与英特尔第五代至强64核心处理器（Xeon 8592+）的对比，其性能达到了后者的3.1倍。不过，英特尔很快也将在今年三季度推出128个P核的服务器芯片Granite Rapids-AP，而这两款芯片进行对比才具有参考意义。

编辑：芯智讯-林子

AMD Zen5 内核详解：架构全面提升，IPC性能增长16%

相关文章:

付费内容

AMD Zen5 内核详解：架构全面提升，IPC性能增长16%

相关文章:

付费内容

Trending now