全球首台200亿亿次超算安装完成：配备21248个Intel Xeon Max系列CPU、63744个Intel Max系列GPU、20.42PB内存！

2023年06月25日

当地时间6月22日，英特尔（Intel）官方宣布，美国能源部阿贡国家实验室已经完成基于英特尔CPU及GPU的新一代超算“Aurora”的安装工作，今年晚些时候上线后将提供超过2 exaflops（2百亿亿次计算每秒）的FP64浮点性能，将超越隶属于美国能源部橡树岭国家实验室的“Frontier”，有望成为全球第一台理论峰值性能超过2 exaflops的超级计算机。

据介绍，Aurora 超级计算机由英特尔、惠普企业（HPE）和美国能源部（DOE）合作，旨在大规模释放高性能计算（HPC）三大支柱的潜力：模拟、数据分析和人工智能（AI）。该系统配备了所有 10624 个刀片服务器，每个刀片由两个英特尔Xeon Max 系列 CPU（至强Max 9480）和六个英特尔 Max 系列 GPU 组成，使得Aurora 超级计算机总共拥有 63744 个英特尔数据中心 Max 系列 GPU 和21248 个英特尔Xeon Max 系列CPU。

英特尔Xeon Max CPU中的 56 个内核均为 P 核，可提供 112 个线程和 350W TDP。它采用基于 EMIB 的设计，分为四个集群。它还具有 64 GB 的 HBM2e 内存，分为 4 个 16 GB 的集群，总内存带宽为 1 TB / s，每个内核的 HBM 都超过 1 GB。在性能方面，英特尔称，Xeon Max配备的高带宽内存足以满足最常见的HPC工作负载，与旧的英特尔至强 8380 系列处理器或 AMD EPYC 7773X 相比，可在某些工作负载中提供接近 5 倍的性能。

英特尔Xeon Max CPU中还包含 20 个加速引擎，主要是用于 AVX-512、AMX、DSA 和英特尔 DL Boost 工作负载。据称，英特尔在 MLPerf DeepCAM 训练中的性能比 AMD 7763 提升了 3.6 倍，比 NVIDIA 的 A100 提升了 1.2 倍。

至于英特尔MAX GPU实际上就是之前的Ponte Vecchio芯片，使用了英特尔有史以来最先进的封装技术，拥有超过1000亿个晶体管。其总共有63个模块，包括了16个Xe-HPG架构的计算芯片、8个Rambo cache芯片、2个Xe基础芯片、11个EMIB连接芯片、2个Xe Link I/O芯片和8个HBM芯片、以及16个负责TDP输出的模块，通过EMIB与Foveros 3D封装中整合在一起。其中最强的MAX 1550配备了英特尔性能最高的OAM模块，拥有128个X^e核心和128GB的HBM2e内存，TDP为600W。

此外，Aurora 系统还配备了10.9PB的傲腾持久内存。同时正如前面所介绍的，每个Xeon Max CPU内还封装了64 GB 的 HBM2e 内存，这也意味着21248 个英特尔Xeon Max 系列CPU内的 HBM2e高带宽内存容量达到了1.36PB；每个 Max GPU内最高还封装了128 GB 的 HBM2e 内存， 63744个Max GPU内的HBM2e内存容量达到了8.16PB。三者合计达20.42PB内存。存储方面，Aurora 集成了超过 1024 个存储节点（使用 DAOS，英特尔的分布式异步对象存储技术），并利用HPE Slingshot高性能结构，以每秒31 TB的总带宽提供220 PB的总的存储容量。

以上所有的CPU、GPU、内存及存储等组件都将通过英特尔的oneAPI软件互相链接。借助 oneAPI，开发者对整个系统中的节点进行编程，无需更改代码，应用程序可以有效在 CPU 和 GPU 上运行，为开发人员提供无缝系统集成。

英特尔表示，Aurora将充分利用英特尔Max系列GPU和CPU产品系列的强大功能。Max系列GPU的早期结果旨在满足动态和新兴HPC和AI工作负载的需求，在现实世界的科学和工程工作负载上显示出领先的性能，在OpenMC上显示出高达AMD MI250X GPU性能的2倍，以及接近线性扩展到数百个节点。在许多现实世界的HPC工作负载（如地球系统建模、能源和制造）中，Intel Xeon Max系列CPU比竞争对手具有40%的性能优势。

目前世界第一的超级计算机是隶属于美国能源部橡树岭国家实验室的“Frontier”，最大性能每秒1.19百亿亿次浮点计算，峰值性能可达1.68百亿亿次，其采用的是正是AMD EPYC 7A53 64核心处理器，以及Instinct MI250X GPU加速器。随着“Aurora”的安装工作完成，今年晚些时候上线后将可提供超过2 exaflops的性能，成为全球最强的超级计算机。

为了更好的发挥Aurora的性能，近期，英特尔还公布了一个主要面向于科学领域的生成式 AI 模型——Aurora genAI。

据介绍，Aurora genAI 模型以 Megatron 和 DeepSpeed 为基础，其规模达到了 1 万亿个参数，相比之下基于GPT-3的ChatGPT 的规模仅为 1750 亿参数，Aurora genAI 在参数规模上提升到了5.7倍。该模型将在通用文本、科学文本、科学数据和与该领域相关的代码上进行训练。可以推动清洁能源聚变、催化剂、癌症、航空航天、神经科学研究、宇宙学等方面的研究。