拥有1000亿晶体管的Intel GPU Max将逐步停产

1000+亿晶体管怪物!Intel GPU Max诞生一年半就被放弃

5月15日消息,据最新的爆料显示,英特尔已经向合作伙伴发出通知,其2022年底提出的首款面向HPC高性能计算、AI人工智能应用的Intel Max系列GPU产品将逐步停产。这也意味着英特尔面向云端AI加速的市场的重点将会放在Gaudi 2/3系列,以及明年推出的第二代GPU Max Falcon Shores。

资料显示,Intel Max系列GPU代号为“Ponte Vecchio”,使用了英特尔有史以来最先进的封装技术,拥有超过1000亿个晶体管。其总共有63个模块,包括了16个Xe-HPG架构的计算芯片、8个Rambo cache芯片、2个Xe基础芯片、11个EMIB连接芯片、2个Xe Link I/O芯片和8个HBM芯片、以及16个负责TDP输出的模块,通过EMIB与Foveros 3D封装中整合在一起。其中最强的MAX 1550配备了英特尔性能最高的OAM模块,拥有128个Xe核心和128GB的HBM2e内存,TDP为600W。

英特尔架构日秀肌肉:全新CPU/GPU/IPU发布,还有1000亿晶体管SoC

不过Intel Max系列GPU推出以来,实际的商用案例并不多,唯一知名的就是美国百亿亿次超级计算机Aorura,其搭载了 63744 个英特尔数据中心 Max 系列 GPU 和21248 个Xeon Max 系列CPU,将提供超过2 exaflops(2百亿亿次计算每秒)的FP64浮点性能,将超越隶属于美国能源部橡树岭国家实验室的“Frontier”,有望成为全球第一台理论峰值性能超过2 exaflops的超级计算机。

今年4月,英特尔面向云端AI加速芯片市场推出了Gaudi 3,基于台积电5nm工艺,拥有 8 个矩阵数学引擎、64 个张量内核、96MB SRAM(每个Tile 48MB,可提供12.8 TB/s的总带宽) 和 128 GB HBM2e 内存,16 个 PCIe 5.0 通道和 24 个 200GbE 链路 。在计算核心的周围,则是八个HBM2e内存堆栈,总容量为128 GB,带宽为3.7 TBps。

与上一代的Gaudi 2 相比,Gaudi 3在BF16工作负载方面的性能将是Gaudi 2的四倍,FP8性能也将是Gaudi 2 的两倍,网络性能也是Gaudi 2的两倍(Gaudi 2是24个内置的100 GbE RoCE Nic),HBM容量是Gaudi 2的1.5倍。

图片

另外,Gaudi 3 设备中的张量内核支持与 Gaudi 32 相同的 FP32、TF32、BF16、FP16 和 FP8 数据格式,并且不支持 FP4 精度。相比之下英伟达新的Blackwell GPU 将支持 FP2 精度,而英伟达现有的 Hopper GPU 则不支持。

英特尔表示,Gaudi 3预计可大幅缩短70亿和130亿参数Llama2模型,以及1750亿参数GPT-3模型的训练时间。此外,在Llama 7B、70B和Falcon 180B大型语言模型(LLM)的推理吞吐量和能效方面也展现了出色性能。

根据英特尔官方公布的数据显示,Gaudi 3 在流行的大语言模型(LLM)训练速度方面,比英伟达H100平均快了40%;在流行大模型的推理能效表现上,比如英伟达H100领先50%。

至于英特尔将在明年推出的Falcon Shores GPU,其整合了Habana Gaudi IP和Xe GPU IP,并将采用HBM3内存和以太网交换,并支持CXL编程模型。

此外,此外,为Gaudi加速器和Xeon Max GPU调整的应用程序将与Falcon Shores前向兼容,从而为其客户提供两种截然不同的GPU和Gaudi系列之间的代码连续性。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容