据外媒servethehome报道,近日,在第三十四届 Hot Chips 大会上,我们了解了 Tesla Dojo处理器的微架构。对于那些不知道的人,特斯拉现在正在消耗如此多的人工智能资源,不仅拥有巨大的 NIVIDA GPU 集群,而且还在设计自己的人工智能训练基础设施。在 Hot Chips 上,该公司进行了两次会谈。本文将介绍微架构。
Tesla Dojo AI 系统微架构
特斯拉拥有用于机器学习的百亿亿次人工智能级系统。基本上,就像它的车载系统一样,特斯拉已经决定它有足够的规模来雇佣人员并专门为其应用构建芯片和系统。
特斯拉正在考虑从头开始构建系统。它不仅在构建自己的 AI 芯片,还在构建超级计算机。
HC34 Tesla Dojo UArch 分布式系统剖析
每个 Dojo 节点都有自己的 CPU、内存和通信接口。
HC34 特斯拉道场 UArch 道场节点
这是 Dojo 处理器的处理管道。
HC34 Tesla Dojo UArch 处理流水线
每个节点有 1.25MB 的 SRAM。在 AI 训练和推理芯片中,一种常见的技术是将内存与计算共存以最大限度地减少数据传输,因为从功率和性能的角度来看,数据传输非常昂贵。
HC34 Tesla Dojo UArch 节点内存
然后每个节点都连接到一个 2D 网格。
HC34 Tesla Dojo UArch 网络接口
这是数据路径概述:
HC34 Tesla Dojo UArch 数据路径
下面是一个芯片可以做的列表解析的例子。
HC34 Tesla Dojo UArch 列表解析
这里有更多关于 DOJO 指令集的内容,这是 Tesla 的创造,而不是典型的 Intel、Arm、NVIDIA 或 AMD CPU/GPU 的指令集。
HC34 Tesla Dojo UArch 指令集
在人工智能中,算术格式很重要,特别是芯片支持哪些格式。DOJO 是特斯拉研究常用格式的机会,例如 FP32、FP16 和 BFP16。这些是常见的行业格式。
HC34 Tesla Dojo UArch 算术格式
特斯拉也在研究可配置的 FP8 或 CFP8。它有 4/3 和 5/2 范围选项。这类似于 NVIDIA H100 Hopper对 FP8 所做的。我们还看到Untether.AI Boqueria 1458 RISC-V Core AI Accelerator专注于不同的 FP8 类型。
HC34 特斯拉道场 UArch 算术格式 2
Tesla 还具有不同的 CFP16 格式,以实现更高的精度。DOJO 支持 FP32、BFP16、CFP8 和 CFP16。
HC34 Tesla Dojo UArch 算术格式 3
然后将这些核心集成到制造的模具中。Tesla D1 芯片由台积电以 7nm 工艺制造。每个芯片每个芯片有 354 个 DOJO 处理节点和 440MB 的 SRAM。
HC34 Tesla Dojo UArch First Integration Box D1 模具
这些 D1 管芯被打包到 Dojo Training Tile 上。D1 芯片经过测试,然后组装成 5×5 的瓦片。这些瓦片的每个边缘具有 4.5TB/s 的带宽。它们还具有每个模块 15kW 的功率传输包络或每个 D1 芯片大约 600W 减去 40 个 I/O 裸片所使用的功率。该瓷砖还包括所有的液体冷却和机械包装。这在概念上类似于 Cerebras 封装其WSE-2巨型芯片的做法。如果一家公司不想设计它,人们也可以看到为什么像 Lightmatter Passage这样的东西会很有吸引力。
HC34 特斯拉道场 UArch 二次集成箱道场训练砖
DOJO 接口处理器位于 2D 网格的边缘。每个训练块有 11GB 的 SRAM 和 160GB 的共享 DRAM。
HC34 Tesla Dojo UArch Dojo 系统拓扑
以下是连接处理节点的 2D 网格的带宽数据。
HC34 Tesla Dojo UArch Dojo 系统通信逻辑二维网格
每个 DIP 和主机系统提供 32GB/s 的链接。
HC34 Tesla Dojo UArch Dojo 系统通信 PCIe 链接 DIP 和主机
特斯拉还具有用于更长路线的 Z 平面链接。在接下来的演讲中,特斯拉谈到了系统级的创新。
HC34 Tesla Dojo UArch 通信机制
这里是 die 和 tiles 的延迟边界,这就是为什么在 Dojo 中对它们进行不同处理的原因。需要 Z 平面链路,因为长路径很昂贵。
HC34 Tesla Dojo UArch Dojo 系统通信机制
任何处理节点都可以跨系统访问数据。每个节点都可以将数据推送或拉取到 SRAM 或 DRAM。
HC34 Tesla Dojo UArch Dojo 系统批量通信
Tesla Dojo 使用平面寻址方案进行通信。
HC34 特斯拉道场 UArch 道场系统网络 1
这些芯片可以在软件中绕过死处理节点。
HC34 特斯拉道场 UArch 道场系统网络 2
这意味着软件必须了解系统拓扑。
HC34 特斯拉道场 UArch 道场系统网络 3
DOJO 不保证端到端的流量排序,因此需要在目的地对数据包进行计数。
HC34 特斯拉道场 UArch 道场系统网络 4
以下是数据包如何计入系统同步的一部分。
HC34 Tesla Dojo UArch Dojo 系统同步
编译器需要定义一个带有节点的树。
HC34 特斯拉道场 UArch 道场系统同步 2
特斯拉表示,一个 exa-pod 拥有超过 100 万个 CPU(或计算节点)。这些都是大型系统。
HC34 特斯拉道场 UArch 总结
特斯拉专门为大规模工作而建造了 Dojo。一些初创公司希望为每个系统构建一个或几个芯片的 AI 芯片。特斯拉专注于更大的规模。
最后的话
在许多方面,特斯拉拥有一个巨大的人工智能训练场是有道理的。更令人兴奋的是,它不仅使用了商用系统,而且还在构建自己的芯片和系统。标量端的一些 ISA 是从 RISC-V 借来的,但向量端和特斯拉定制的许多架构,所以这需要做很多工作。