5月14日消息,据 Tom\'s Hardware 报道,美国芯片初创公司Tachyum近日推出了一款名为Prodigy的全新通用处理器,它的特色之处在于,将 CPU、GPU 和 TPU 的功能结合到一个单一的同质处理器架构中,号称是世界上第一个适用于超大规模、HPC 和 AI 工作负载的通用处理器。相比竞品,不仅速度更快、功耗降低了10倍,成本也仅为竞品的1/3。
据介绍,Prodigy T16128 拥有 128 个 64 位 CPU 内核,运行频率高达 5.7GHz,还有 16 个 DDR5 内存控制器和 64 个 PCIe 5.0 通道,可以处理通用计算、高性能计算 (HPC) 和 AI 工作负载 —— 所有这些都使用单个芯片。
Tachyum 将 Prodigy 称为世界上第一个“通用处理器”,并表示从一开始就被设计为能够运行众多世界上最密集的计算应用程序的多用途 CPU。Prodigy 不仅在单个芯片上处理所有这些不同的任务,而且功耗预算比传统硬件降低到 10 分之一,成本只有三分之一。
Tachyum 大胆宣称 Prodigy 超级计算机芯片的性能是市场上英特尔最快的 Xeon 芯片的四倍,在高性能计算应用中的原始性能是 Nvidia H100 的三倍。同时,能效提高了 10 倍。
Tachyum 表示,为了在单核架构中创造如此令人印象深刻的性能,它从头开始构建了具有矩阵和矢量处理能力的 Prodigy,而不是后面才考虑它们。Prodigy 支持一系列数据类型,包括 FP64、FP32、TF32、BF16、Int8、FP8 和 TAI,所有这些都来自各个 CPU 内核本身。
Tachyum认为,Prodigy 处理器在 2023 年问世时可能会改变游戏规则。AMD、英特尔和 Nvidia 的最新服务器硬件都依赖于单个硬件 —— 即使在单个 CPU 或 GPU 中 —— 来执行这些不同的工作负载。这方面的一个例子是 Nvidia 的 RTX 系列 GPU,它需要专用的机器学习 Tensor 内核才能使 AI 工作,而专用的 RT 内核则需要用于光线追踪应用程序。
另一方面,Prodigy 将能够在单个内核上运行光线追踪和 AI 应用程序,并且不需要将数据转移到微处理器内部的另一个芯片上。
在单个芯片内运行所有这些不同的 HPC 工作负载可能会极大地改变服务器格局:公司将能够将更多芯片打包到服务器场中,同时降低功耗和冷却。
Prodigy T16128 采用未知来源的 5nm 工艺技术运行,并在非常小的(就其提供的功率而言)64 mm x 84mm FCLGA 封装内运行。
Tachyum 表示,在 HPC 工作负载方面,该芯片能够执行 12 AI PetaFLOPS 和 90 TeraFLOPS。Prodigy 芯片还可以运行适用于 x86、ARM、RISC-V 和 ISA 的二进制文件。从某种角度来看,单个 Nvidia A100 只能实现 5 AI PetaFLOPS。
每个内核特别能够执行 2 个 1024 位向量单元、4096 位矩阵运算和每个时钟 4 个乱序指令。还支持虚拟化和高级 RAS。该芯片还包括超过 128MB 的具有纠错功能的 L2 L3 高速缓存。为了满足其所有内核的需求,该芯片配备了 16 个 DDR5 内存控制器,额定速度高达 7200MT / s,每个插槽的最大容量为 8TB。
T16128 是 Tachyum Prodigy 系列中的旗舰型号,产品堆栈中的中端和入门级插槽分别有 64 核 T864 和 32 核 T832。芯片生产将于 2023 年开始,因此我们应该会在明年某个时候看到这些芯片的实际基准测试性能。
来源:Tom\'s Hardware、Tachyum