2月22日消息,目前英伟达是云端AI芯片市场的霸主,占据了超过90%的市场份额。因此,市场也希望半导体IP大厂Arm能够推出与英伟达(NVIDIA)竞争的数据中心级GPU产品。据外媒The next platform报道,Arm Neoverse的数据中心计算路线图刚刚添加了包括CPU内核在内的许多新的东西,但却没有数据中心级的独立GPU加速器,也没有矩阵数学加速器,例如英特尔(Habana Labs)、SambaNova Systems、Tenstorrent、Groq 或 Cerebras Systems 创建的加速器。
虽然目前英伟达、亚马逊和微软的数据中心级CPU都是基于Arm 架构,并且底部运行的三个 DPU 中至少有两个也是 Arm 架构(不确定 Azure Boost是否有CPU,但如果里面有 CPU,几乎可以肯定它是基于某种 Arm 内核的)。虽然在数据中心的CPU市场,目前X86架构仍占据主导地位,但是基于Arm架构的CPU在超大规模数据中心和云构建器数据中心市场的份额正持续增长。这或许也是为何此前NVIDIA希望斥资400亿美元收购Arm。
Arm公布的最新图片概述了不同类型的数据中心工作负载的性能向量。2024 年, Arm将进一步扩展数据中心路线图,包括各种 Neoverse 核心,以及计算子系统(CSS)许可包,这些许可包将可用于高性能的V系列核心以及N系列核心,“Genesis”知识产权围绕代号为“Perseus”的Neoverse N2核心。
微软的 128 核 Cobalt 100 处理器基于Arm Genesis CSS Neoverse N3 设计,传闻中的谷歌“Maple”Arm 服务器 CPU 将基于代号为“Poseidon”的 Neoverse V3 核心或代号为“Hermes”的Neoverse N3 核心。从目前的趋势来看,超大规模的企业和云构建商将不可避免地在其数据中心混合部署Neoverse N系列和Neoverse V系列核心,并在边缘部署Neoverse E系列核心。 Nvidia 的“Grace” CG100 和亚马逊的Graviton4均基于代号为“Demeter”的Neoverse V2 核心。
早在2018年10月,Arm开始的想法是每年推出一个新的Neoverse 核心和服务器平台,并每年完成同步台积电制造工艺步骤的变化。 2019年的“Ares”平台采用7nm工艺,“Zeus”预计在2020年采用增强型7nm工艺,“Poseidon”预计在2021年采用5nm工艺。Arm希望能够在每一代新产品中实现 30% 的性能提升(部分通过架构,部分通过功能)。
Neoverse 路线图分为 N系列、V系列和 E系列三类核心,并且需要更多时间才能将核心投入实际使用。例如,代号“Poseidon”的Neoverse V3 核心最初预计在 2021 年推出,但直到近期才上市,然后在两年前的路线图中的推出时间点已经修改为更加模糊的“2023+”。这些事情需要时间,而真正推动 Neoverse 路线图的超大规模厂商和云构建商的相关计划被新冠疫情期间的供应链中端而扰乱。
随着疫情的结束,Neoverse路线图的持续推进,Arm及其客户的发展将会更加顺利。以下是去年的Arm公布Neoverse 路线图:
NVIDIA最初部署的代号为“Demeter”的Neoverse V2 核心需要一个 CSS 包,但看起来这不会发生。好消息是,代号为“Poseidon”核心及其 CSS 包现已推出,代号为“Hermes” Neoverse N3 核心及其 CSS 包也已推出,以下为最新的2024年Neoverse 路线图:
目前还不清楚Neoverse N3 和Neoverse V3 CSS 包的代号是什么,但我们并不打算将其称为“Exodus” and “Leviticus” ,这与《旧约》各卷书的创世记名称所暗示的一致。 Neoverse N2 IP 堆栈。事实证明,它们是 CSS V3 的“Voyager”和 CSS N3 的“Pioneer”。
Arm 在 2024 年路线图上省略了 X 轴上的年份,因此我们不知道后续的代号为“Adonis”的Neoverse V4 内核及其代号为“Vega”CSS 包、后续的代号为“Dionysus”的Neoverse N4 内核和 代号为“Ranger”的CSS 包和代号为“Lycius”的Neoverse E4 核心将可用。 Arm Neoverse 高层承诺未来将提供更多细节。
据了解,Neoverse N3 CCS系列将从32核心的N3开始,并具有一对 DDR5 内存控制器、一对 I/O 控制器和可选的芯片间互连,可以创建将两个32核心的N3整合在一起,形成 64 个核心。这些Neoverse N3 内核都是根据最新的 Armv9.2 规范构建的。目前,N3 核心或 CSS N3 封装的工艺技术尚未公布,但相信它将有台积电的5nm和3nm以及三星和英特尔的先进制程工艺可供选择。
上面的数据表明,N3 CSS 封装可以在 40W TDP中提供 32 个内核,这似乎表明该设计将采用台积电的3nm工艺。
据 Arm 称,N3 封装可以缩小至 8 个内核,大概带有 1 个 DDR 控制器和 1 个 I/O 控制器。根据之前的 2022 年 9 月路线图,猜测 N3 核心将被放入支持 DDR5 内存和 PCI-Express 6.0 外围控制器以及 CXL 3.0 一致性覆盖的封装中。但如果下面描述的 CSS V3 包作为指导,它可能会被限制在 PCI-Express 5.0 外设和 CXL 2.0 上。
不清楚N3 核心上的矢量单元有多宽,也不知道有多少个,但如果 N3 核心要在 CPU 上进行 AI 推理和一些 AI 训练,那么 与 N2 内核相比,这些都必须得到增强。N2 内核具有一对 128 位向量,每个时钟可以执行四次 FP64 操作,然后将其分解可以实现混合精度性能。一个适当的矩阵数学单元——可以说是一个张量核心——也可能会被添加到 N3 核心中,但 Arm 没有透露。
Poseidon V3 核心可能会以类似的方式得到增强,其矢量和矩阵能力是 Hermes N3 核心的两倍。Zeus V1 核心有一对 256 位向量,而 Demeter V2 核心则改为四个 128 位向量;两者每个时钟执行 8 次 FP64 操作,但后一种设计效率更高。看看 V3 核心会发生什么将会很有趣。鉴于我们对 V1 核心的了解,四个 256 位向量会很奇怪,而八个 128 位向量可能听起来更奇怪,这似乎正是英特尔在“Sapphire Rapids”Xeon SP CPU 中创建 AMX 矩阵数学单元的方式。
无论如何,基本 CSS V3 构建块是 64 个 V3 内核,带有 6 个 DDR内存控制器、4 个 PCI-Express 5.0 I/O 控制器和一对芯片间互连。 2022 年 9 月的路线图显示,预计 V3 将采用 PCI-Express 6.0 和 CXL 3.0。这种情况直到 V4 甚至可能是 N4 代才会发生。 (也有可能 N3 首先获得 PCI-Express 6.0,而 V3 根本没有获得。)
据 Arm 称,这种 CSS V3 复合体的性能比现有的 CSS N2 复合体提高了 50%,其中两个复合体可以放入一个封装中,在单个插槽中扩展到 128 个内核。令我们惊讶的是它无法扩展到 256 个核心,但这可能是 CSS 的限制,而不是 V3 架构本身的限制。我们确信有人可以构建 256 核 V3 插槽;然而,这在技术或经济上可能没有意义。
V3 封装将支持 DDR5 内存或 HBM 堆叠内存,看看是否有任何 CPU 制造商会将 HBM 加入到其中,这将会很有趣。为什么不呢? HPC 和 AI 的好处是显而易见的,当成本不是问题时(GenAI 的情况似乎如此),为什么不创建一个呢?
Arm 热衷于指出 CSS V3 封装的设计目的是直接紧密地连接加速器,考虑到 Nvidia 的 Grace-Hopper 超级芯片复合体,这对 Nvidia 来说显然很重要。
为了激发人们的兴趣,Arm 给出了 V2 内核与之前的 N1 和 V1 内核以及英特尔和 AMD 过去两代 X86 处理器的一些早期性能规格。如下图所示:
Arm 正在努力的提高 XGBoost 的性能,这是一种用于进行回归、分类和预测的经典机器学习算法。Arm 在相对较小的 LLaMA 2 大型语言模型(只有 70 亿个参数)上给出了一些 AI 推理基准测试:
编辑:芯智讯-林子