8月28日消息,在Hot Chips 2024大会第二日活动上,处理器大厂AMD详细介绍了AMD Rzyen 9000系列和 Rzyen AI 300系所搭载的Zen 5 内核。
根据AMD的目标,Zen 5内核架构的IPC性能相比上代提升16%。因此,AMD对于Zen 5架构进行多方面的改进。不仅采用了全新的前端设计,拥有更宽的执行窗口和重新设计的指令提取、译码、分发单元,让Zen 5架构可以在每个时钟周期执行更多指令,对应的微操缓存和寄存器带宽也对进行了增大。Zen 5 架构还拥有完整的512-bit FPU执行模块,可以提高运行AVX512/VNNI指令大语言模型的AI效率。
前端部分,Zen 5架构主要优化了分支预测和预取单元,并将译码管道升级为两组4 inst/cycle并行操作,分发单元(Dispatch)和微操缓存(Op Cache)也对应升级为8-wide和6-wide x 2,主要是为了增加每个时钟周期,前端流水线可以同时处理的指令数。
Zen 5的译码(Decode)和分发单元(Dispatch)都是8-wide/cycle,而现在Rename(重命名)和Retire(回退)寄存器同样也是8-wide/cycle,这保持了流水线增宽的统一效率。增宽的流水线让Zen5架构可以设计更多执行单元,Zen 4时候是4个ALU和3个AGU,Zen 5则增加至6个ALU和4个AGU,理论上能提高50%的运算吞吐量。
Zen5架构在浮点单元部分采用了完整的512-bit FPU以及与其位宽匹配的流水线管道,之前的Zen 4架构其实也支持AVX512指令集,但主要是通过2个256-bit FPU单元在两个时钟周期合并执行,算力和效率和完整的512-bit都要差不少。AMD在Zen 5上花费大量核心面积来提升AVX 512的性能,主要是AI大语言模型能够使用AVX512/VNNI指令,为AI路线强化产品竞争力。
Zen 5的存取单元从Zen 4的8路32KB L1 D-Cache提高到12路48KB D-Cache,指令操作数也从每周期3 load/2 store提高到4 load/2 store,更大的存取队列和更大的D-TLB页目数一定程度上降低了缓存Miss的概率。
下图揭示了Zen 5 的缓存层次结构以及芯片的布局。
AMD还推出了更低的高速缓存和更低的时钟频率的Zen 5c内核,这些内核针对能效进行了更多优化。
以下是Zen 5 ISA的新特性:
Zen 5的能效也是关注的重点:
Zen 5架构与Zen 4架构的对比:
总体来看,Zen 5的IPC性能相比Zen 4 提升了16%。
AMD还展示了即将推出的基于Zen 5架构的128个核心的Turin服务器芯片与 英特尔第五代至强64核心处理器(Xeon 8592+)的对比,其性能达到了后者的3.1倍。不过,英特尔很快也将在今年三季度推出128个P核的服务器芯片Granite Rapids-AP,而这两款芯片进行对比才具有参考意义。
编辑:芯智讯-林子