1月11日下午,英特尔在北京召开了主题为“芯加速 行至远”的第四代至强新品发布会,正式推出代号为“Sapphire Rapids”的第四代英特尔至强可扩展处理器、英特尔至强CPU Max系列(代号“Sapphire Rapids HBM”)以及英特尔首个数据中心GPU Max系列(代号“Ponte Vecchio”),在实现数据中心性能、能效和安全性大幅跃升的同时,为AI、云、网络、边缘和全球领先的超级计算机带来全新功能。
英特尔表示,基于数十年来在数据中心、网络和智能边缘领域的创新和领导地位,全新第四代英特尔至强可扩展处理器通过丰富的内置加速器提供领先的性能,解决客户在AI、分析、网络、安全、存储和科学计算领域面临的重大计算挑战。
AI性能提升10倍,整体能效提升2.9倍
具体来说,第四代英特尔至强可扩展处理器采用了Chiplet设计,其能够在一个封装上集成多达4个采用Intel 7制程工艺制造的单元,这些区块通过英特尔嵌入式多芯片互连桥接(EMIB)封装技术连接。第四代英特尔至强可扩展处理器拥有最高60个CPU内核的同时,还具备新特性,包括通过DDR5增加了内存带宽、通过PCIe5.0和Compute Express Link (CXL) 1.1互连增加了I/O带宽。最高可以提供80个PCIe 5.0通道,支持1.5TB的DDR5-4800内存。
第四代英特尔至强的模块化架构让英特尔能够提供广泛的处理器,针对客户的使用场景或应用提供接近50个有针对性的SKU,其中包括从主流通用SKU到面向云、数据库和分析、网络、存储和单插槽边缘使用场景的专用SKU。第四代英特尔至强处理器家族支持英特尔On Demand,能够针对不同使用场景和外形规格提供不同的核心数、频率、加速器组合、功率和内存吞吐量,从而满足客户的实际应用需求。
△英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰展示第四代英特尔至强可扩展处理器晶圆
根据英特尔官方公布的数据显示,与前一代处理器相比,第四代英特尔至强处理器的基础算力提升了53%,人工智能性能提升10倍,5G vRAN性能提升了2倍,网络?&存储性能提升了2倍,数据分析性能提升了3倍,科学计算性能提升了3.7倍。通过内置加速器还将目标工作负载的平均每瓦性能提升了2.9倍,在优化电源模式下每个CPU节能高达70瓦,性能并没有太大的下降,使得企业的总体拥有成本降低52%到66%。
而第四代英特尔至强处理器的性能及能效之所以能够有如此之大的提升,除了Intel 7制程工艺的助力之外,还归功于内置的多种加速引擎及自研技术。
内置多个加速引擎,重新定义性能
在英特尔看来,目前的处理器已经不单单需要传统基础算力性能,更需要专属计算单元,以实现AI、深度学习等性能的成倍提升,同时还需要拥有出色的能效和成本。
因此,英特尔对其第四代至强可扩展处理器构建了以结果为导向、工作负载至上的策略,及针对特定工作负载高度优化的软件,为不同工作负载和需求匹配对应的功耗和性能,并实现理想的总体拥有成本。
为此,第四代至强可扩展处理器内置了全新的英特尔AMX、DLB、DSA、IAA、QAT内核,并加强了英特尔安全、AVX-512等先进技术。
1、在AI方面,与前一代相比,第四代至强通过内置英特尔高级矩阵扩展(英特尔AMX)加速器,将PyTorch实时推理和训练性能提升了10倍。第四代英特尔至强还将广泛的AI工作负载的推理和训练性能提升到新的高度。
比如,英特尔至强CPU Max系列在这些功能的基础上还针对自然语言处理进行了扩展,将大型语言模型的处理速度提升多达20倍。
借助英特尔的AI软件套件,开发者可以使用自己选择的AI工具,提高生产力并加快AI开发速度。该套件可以从工作站进行移植,使其可以在云中扩展,并一直扩展到边缘。同时,该套件已经针对400多个机器学习和深度学习AI模型进行了验证,涵盖所有商业细分领域最常见的AI应用场景。
2、第四代至强还内置了英特尔动态负载均衡器(DLB),可以根据系统负载的变化而动态地在多个CPU内核上分配网络数据,能提供高效的硬件负载均衡。
3,第四代至强内置了英特尔数据流加速器(DSA),提高了存储、网络和数据密集型工作负载的性能,让数据密集型工作负载操作性能提升1.7倍。
4、第四代至强还内置了英特尔存内分析加速器(英特尔IAA),可提高分析性能,能同时把任务从CPU 内核卸载,以加速数据库查询吞吐量和其它工作负载。借助IAA加速器,第四代至强的数据分析工作负载优化内存占用和吞吐量性能提升了3倍。
5、第四代至强内置了英特尔®数据保护与压缩加速技术(英特尔QAT)可以通过卸载加密、解密和数据压缩,将这些任务从处理器内核卸载,从而让系统能够实现降低能耗的目的。
6、第四代至强内置了英特尔密码操作硬件加速功能,大大降低了实施普遍数据加密的影响,并提高了加密密集型工作负载的性能,例如,安全套接字层(SSL)web服务器、5G基础设施和VPN/防火墙。
作为数据中心计算提供应用隔离的芯片厂商,英特尔还拥有自己的英特尔软件防护扩展(英特尔SGX)技术,在私有云、公有云和从云到端的环境中,为使用中的数据提供硬件加密,以实现当前机密计算领域更小的攻击面。
此外,英特尔还带来了全新的虚拟机隔离技术,英特尔Trust Domain Extensions(英特尔TDX)也非常适合把现有应用移植到机密环境,该特性将在微软Azure、阿里云、谷歌云和IBM云中首发。
此外,第四代至强内置的面向vRAN的英特尔高级矢量扩展512(英特尔AVX-512)能够在相同的功率下把vRAN工作负载的密度提高至前一代的两倍2。英特尔AVX-512还支持两个融合乘加(FMA)单元和其他优化功能,可帮助提升要求严苛的计算工作负载性能。
需要指出的是,在第代至强的50多个SKU当中,此次新增的英特尔AMX、DLB、DSA、IAA、QAT内核,最高阶的版本这四种内核各配备了4个核心,而对于其他的SKU来说,只有AMX内核是属于标配的(核心数最低1个,最高4个),其他内核则有些有配备,有些则没有。
关于英特尔至强CPU Max系列和英特尔数据中心GPU Max系列,可参看芯智讯此前文章:首次集成HBM内存,英特尔发布Xeon Max CPU!还有全新Max系列GPU
英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera表示:“第四代英特尔至强可扩展处理器和Max系列产品的发布,对于推动英特尔在数据中心领域阔步前行,增强数据中心领域的领导地位,以及进一步探索新领域的发展机会极具意义。第四代英特尔至强可扩展处理器和Max系列产品能够满足客户真实所需,即在安全的环境中兼具领先的性能和可靠性,不仅能够满足客户的实际应用需求,亦有助于其加速实现业务价值及创新。”
多家合作伙伴力挺
在今天的发布会上,来自腾讯云、天翼云、京东云、阿里云、火山引擎、吉利汽车、浪潮信息与亚信科技的伙伴亦分享了其如何基于第四代英特尔至强可扩展处理器推动产品、技术创新,及在诸多领域落地的成功实践。
腾讯云实验室星星海研发总监曾钦杵表示:“第四代英特尔至强可扩展处理器AMX特性极大的助力了腾讯搜索暨视频业务的效率提升。”比如,在腾讯太极机器学习平台加速搜索业务应用当中,相比上一代至强平台,第四代至强的BERT-base BF16 Throughput性能提升到了3.02倍,BERT-base INT8 Throughput性能提升到了2.05倍。
天翼云科技有限公司云网产品事业部总经理杨鑫表示,利用第四代英特尔至强可扩展处理器内置DLB加速技术可解决IPSec业务大象流问题。
阿里云智能服务器首席架构师刘礼寅表示,阿里云基于第四代英特尔至强可扩展处理器的ECS实例的整机性能相比上代最大提升了60%,数据库读写性能提升15%,加解密/压缩解压缩性能提升了4倍,AI性能提升了4倍。
京东科技京东云事业部硬件架构总监董可新表示,基于第四代英特尔至强可扩展处理器的新一代天枢服务器平台性能相比上一代实现了1.7倍的提升。
字节跳动旗下火山引擎云基础产品负责人罗浩称:“第四代英特尔至强可扩展处理器助力火山引擎释放了巨大算力和性能红利。”据介绍,火山引擎基于四代至强的的第三代弹性计算实例相比上一代整机算力提升了70%,单核算力提升了18%,网络转发性能提升了2倍,存储IOPS性能提升了2.3倍,加解密性能提升了1倍,AI推理加速性能提升了2.2倍。
吉利汽车研究院数字仿真技术开发部长廖慧红表示,吉利新一代HPC平台应用了第四代英特尔至强可扩展处理器助力了吉利的仿真,实现了低风阻、全域安全,加速了吉利汽车的概念开发、工程开发及产业化。
浪潮信息服务器产品部总经理赵帅表示,搭载第四代英特尔可扩展处理器的浪潮信息全新一代服务器,在Open Cloud与英特尔QAT助力下,云计算场景(虚拟化VM热迁移)性能最高提升到了8.19倍;在英特尔AMX助力下,大数据场景性能最高提升到了9.26倍。
亚信科技首席科学家叶晓舟表示,亚信科技正与英特尔基于其第四代至强可扩展处理器及其内置加速器开展联合创新,算网性能得到的持续提升。对比上代产品,AntDB数据库吞吐量提升了43%;AI(OCR)应用性能提升达3.38倍。
此外,英特尔也在持续携手中国的合作伙伴共同打造本土化的至强生态系统,促进产业链升级创新。
根据英特尔公布的数据显示,目前英特尔至强中国生态系统当中,已经拥有超过150家中国生态合作伙伴。
在本次的发布会上,宝德、闻泰科技、浪潮、华擎、联想、中兴、金蝶、用友、银河麒麟等英特尔至强中国生态当中诸多软硬件合作伙伴代表登台为第四代至强可扩展处理器助力。
英特尔最具可持续性的数据中心处理器
英特尔今天发布的第四代至强也是英特尔迄今为止最具可持续性的数据中心处理器,在帮助企业实现可持续发展和减排目标方面迈出了重大一步。
英特尔表示,相比于增加CPU内核,内置加速器对于提高工作负载的性能而言是一种更为高效的方式。通过内置加速器和软件优化,英特尔至强可扩展处理器已经为真实使用场景中的目标工作负载提供了领先的每瓦性能。这能够大幅提高CPU的利用率、降低能耗、提高投资回报,同时帮助企业实现可持续发展和减排目标。
除了有助于为特定工作负载提高每瓦性能的内置加速器,第四代英特尔至强可扩展处理器还拥有一系列管理电源和性能的功能。新的优化电源模式可以为某些工作负载带来高达20%的插槽节能,而对性能的影响仅有不到5%。风冷和液冷的创新进一步降低了数据中心的总能耗。并且第四代至强可扩展处理器在英特尔工厂制造时,运用了超过90%的可再生电力,并同时配备了一流的水资源回收设施。
值得一提的是,目前浸没式液冷方案也已经成为了服务器厂商节能减排的一大技术方向。此前,英特尔主导了第一版的浸没式液冷液体规范。在今天的发布会上,英特尔还宣布针对英特尔第三及第四代至强可扩展处理器的浸没式液冷方案设计提供一年的保修服务。这也是业界首家面向浸没式液冷方案设计提供保修服务的服务器芯片厂商。
编辑:芯智讯-浪客剑