不惧AMD及Arm挑战,英特尔称霸服务器市场的秘诀是什么?

2021年4月7日晚间,英特尔在北京召开了主题为“应万变·塑非凡”的新品发布会,正式发布了全新第三代英特尔至强可扩展处理器(Ice Lake),与上一代产品相比,全新第三代英特尔至强可扩展处理器整体性能提升了46%,同时还首次加入了人工智能(AI)加速和安全功能。

结合英特尔包括傲腾持久内存、傲腾固态盘、以太网适配器、FPGA、Xe GPU、Habana AI芯片等在内的广泛产品组合,第三代英特尔至强可扩展处理器将可帮助客户加速云、人工智能、企业端、高性能计算、网络、安全和边缘应用上的部署。

“纵观我们的历史,第三代英特尔至强可扩展平台在灵活性与性能方面都十分优秀。该产品旨在处理从云到网络,再到边缘的各种工作负载。”英特尔公司执行副总裁兼数据平台事业部总经理孙纳颐(Navin Shenoy)表示,“英特尔在架构、设计和制造方面拥有得天独厚的优势,能够提供客户所需的智能芯片和解决方案。”

10nm/40核,性能提升46%

其实早在去年6月,英特尔就已经发布了第三代至强可扩展处理器,只不过当时发布的是支持4路和8路的服务器的产品(服务器支持4个或8个CPU),工艺也还是14nm。而今天英特尔发布的第三代至强可扩展处理器则是面向主流的1路和2路的服务器产品,制程工艺也升级到了10nm(可惜不是10nm SuperFin),核心数量也由最高4-28核心提升到了最高8-40核心。

同时,该平台每插槽最多可支持6TB系统内存,拥有高达8个DDR4-3200内存通道,插槽间互连传输速度提高到11.2GT/s,这为内存带宽密集型的应用程序提供了大量的提升,很多工作负载都可以利用这个来改进。此外,第三代至强可扩展处理器还支持PCIe 4.0标准,拥有64个PCIe 4.0通道。

根据官方公布的数据显示,此次发布的第三代英特尔至强可扩展处理器IPC性能相比上一代至强可扩展处理器(8380 vs. 8280)提升了20%,整体的平均性能达到了上代的1.46倍。

其中,整数SPECrate性能提升50%,浮点性能提升了52%,内存带宽提升了47%,Linpack提升了38%,数据分析性能提升了65%,蒙特卡洛算法的性能提升了70%,MySQL数据库性能提升了64%,几何平均值提升了46%,虚拟化性能也提升了72%,DPDK L3数据包转发提升了88%。

如果与5年前的至强处理器相比,第三代至强可扩展处理器的综合平均性能将达到前者的2.65倍。

内置AI加速和安全解决方案

更为关键的是,在当前服务器领域对于AI计算性能以及数据安全要求越来越高的背景之下,此次发布的全新英特尔第三代至强可扩展处理器将AI加速及英特尔安全解决方案带入其中,并带来了两大关键特性的提升:

1、内置人工智能加速:

随着全球数据量的爆炸式增长,目前不论是在云端还是边缘服务器领域,越来越多的厂商的都开始通过AI来加速对于各类数据的处理。而对于AI计算来说,常规的CPU并不是最佳的载体,因此,云服务及服务器厂商此前也主要是借助于GPU、FPGA来进行AI加速,近年来,很多的云服务厂商开始推出自己的专用的ASIC芯片来做AI加速,比如亚马逊、阿里巴巴、华为、百度等。但是这无疑也带来了成本的大幅提升。

为了补足英特尔处理器在AI方面的能力,英特尔2013年推出了AVX-512指令集,可以更好的支持量运算指令,并将指令宽度进一步扩展到了512bit,使得第三代至强可扩展处理器在对图像/音视频处理、数据分析、科学计算、数据加密和压缩以及人工智能/深度学习等密集型计算应用场景中,得到了更好的加速。

从英特尔第一代至强可扩展处理器开始,就加入了AVX-512指令集,优化了FP32计算能力;随后的第二代可扩展处理器又引入了深度学习加速技术(Intel Deep Learning Boost),即对于VNNI指令集的支持,提升了Int8推理能力。

英特尔第三代至强可扩展处理器同样也引入了DL Boost和VNNI指令集,可以对指令数量进行4:1或3:1的压缩。在性能上,在ResNet50环境下做int8和FP32的推理任务时,整个性能可以提升4.3倍。此外,第三代至强可扩展处理器还加入了对常用的Bfloat16浮点格式的支持。

同样,英特尔第三代至强可扩展处理器还延续了对于Data Direct I/O的特色技术(简称为DDIO技术)的支持,该技术可以使得英特尔的以太网服务器NICs和控制器直接与处理器缓存通信,无需绕道通过系统内存,减少了延迟,增加了系统I/O带宽,并减少了由于内存读写而造成的功耗。

英特尔表示,作为业内唯一内置人工智能加速,并提供广泛软件优化和整体解决方案的数据中心CPU,该款处理器使人工智能得以融入从边缘到网络,再到云的每一个应用。与前一代产品相比,全新的硬件和软件优化使得第三代至强可扩展处理器在图像识别方面(Mobilenet)性能提升了66%,BERT语言处理性能提升了74%。

此外,根据英特尔公布的数据显示,第三代至强可扩展处理器在20种主流人工智能工作负载上可表现出最高1.5倍于AMD EPYC 7763的性能优势,以及最高1.3倍于英伟达A100 GPU的性能优势。

英特尔公司副总裁兼至强处理器与存储事业部总经理Lisa Spelman表示,“无论是跟前代的至强系列相比,还是跟其他的内置AI加速的CPU加速相比,第三代至强可扩展处理器可以实现更好的AI性能提升。与其他竞争对手相比,我们的CPU和离散式AI解决方案都很有竞争力。”Lisa Spelman总结说

2、内置安全及加密指令集

在大数据时代,数据的安全已经成为了最为关键的问题之一。随着近年来企业的数字化转型加速,针对企业的黑客攻击也在快速增长,造成的潜在损失金额也越来越大。

根据美国咨询公司EMSIsoft的评估,2019年英国企业遭到了5000次的黑客的勒索攻击,向黑客支付了超过约2.1亿英镑。

即便是对于安全防护更为注重的大企业也难以避免。比如在2018年,晶圆代工大厂台积电就因为遭勒索病毒攻击导致其台湾三大产线全线停摆;2020年12月,鸿海北美厂区遭遇勒索病毒攻击,100GB文件被窃取,遭勒索3450万美元;2021年3月,宏碁北美地区也遭到黑客攻击窃取了大量数据,被勒索5000万美金的赎金。2021年4月5日,封测大厂日月光投控发布重大信息指出,旗下子公司环旭电子持股100%的控股子公司Asteelflash Group部分服务器了感染REvil勒索病毒。

另外在新冠疫情之下,在家办公成为了一大趋势,而远程办公与协作也给企业的数据安全带来了很大的挑战。

英特尔此次发布的第三代至强可扩展处理器,首次将英特尔软件防护扩展(SGX)技术搭载到了主流双插槽的处理器上,提供了可信的执行环境,能够帮助客户保护敏感的代码和数据,其指定位址空间可隔离并处理最多1TB的代码与数据,可满足主流工作负载的需求。

同时,第三代至强可扩展处理器还引入了英特尔全内存机密技术来批量加密全内存空间,在做到应用程序隔离的同时,还可防止物理攻击。此外还有英特尔平台固件弹性技术,可用于固件层的防御甚至恢复,以防止永久性的拒绝服务攻击。

英特尔称,数百项研究表明,英特尔软件防护扩展在数据中心内具有最小的潜在攻击面,可以帮助客户更好保护敏感数据记录。与英特尔全内存机密技术、英特尔平台固件弹性技术相结合,全新的至强可扩展处理器能够解决当今世界最为紧迫的数据保护问题。

另外,现在很多企业为了更好的保护数据,都纷纷选择去对用户数据进行加密,以防范数据被盗的风险,但是在数据的传输过程中,对于数据的频繁加密和解密,必然也会带来整体性能上损失,特别是对于运行加密密集型工作负载的企业来说,比如如每天处理数百万次客户交易的在线零售商。当然也有厂商会选择进行专门的安全加速,但是这可能会增加解决方案的成本,也可能会导致时延问题。

对此,英特尔在第三代至强可扩展处理器当中引入了英特尔密码操作硬件加速技术,可以通过很多重要的加密算法包括公钥对称加密、哈希法等提供突破性的性能,可以减少普遍加密对性能的影响。例如内置增强加密处理让OpenSSL 2048位签名提升了5.6倍,对称加密性能提升了3.3倍。在提升安全性的同时,并不会带来性能损失。

据介绍,目前微软、IBM、阿里巴巴、百度等数百家最具安全意识的企业,已经在生产中使用和部署了英特尔的第三代至强可扩展处理器。

此外,为了加速处理第三代至强可扩展平台上的工作负载,软件开发人员可以使用OneAPI开放式跨架构编程来优化其应用程序,从而避免了专有模型的技术和经济负担。英特尔OneAPI工具包通过高级编译器、库以及分析和调试工具帮助实现处理器的卓越性能、人工智能和加密功能。

丰富的产品组合覆盖从边到云

全新第三代英特尔至强可扩展平台为从云到智能边缘的广泛的细分市场进行了优化,同时针对网络、工作负载和网络应用等,对第三代至强可扩展平台的SKU进行了更新,不仅可以支持不同的性能需求,还可支持更高的温度,更恶劣的环境,更长的生命周期。

比如,在针对广泛部署的网络和5G工作负载方面,英特尔第三代至强可扩展处理器专门为5G等网络进行了优化,在基于广泛的网络和5G工作负载测试项目中,第三代至强可扩展处理器性能平均提升幅度达到了62%,基于敏感型的数据库与Web应用性能提升幅度达到了50%,可完全满足数据或者网络中心的数据吞吐需求。

据介绍,目前,英特尔正携手超过400个英特尔Network Builders成员企业,为其提供基于第三代英特尔至强可扩展处理器“N系列”的解决方案蓝图,并为vRAN、NFVI、虚拟CDN等加快认证并缩短部署时间。

虽然,CPU是客户购买决策的关键部分,但是这不是唯一的因素,数据的传输、存储方面及可定制化处理方面的能力也很关键,而英特尔丰富的产品组合则可以很好的满足客户的各方面的需求。

全新第三代英特尔至强可扩展平台产品组合同时还包括:英特尔傲腾持久内存200系列、英特尔傲腾固态盘P5800X和英特尔D5-P5316 NAND固态盘,以及英特尔以太网800系列适配器和全新的英特尔Agilex FPGA,可为客户提供更出色的数据的传输、存储和处理方面的能力。此外,英特尔还拥有针对数据中心的Xe GPU、Habana AI芯片等广泛的产品组合。

“我们目前为客户提供超过500种解决方案帮助他们快速提高传输能力,设计和部署领先的边缘基础设施,充分利用性能,更快把握时间,实现真正的价值。包括从服务边缘到云等各个方面,我们都有专门定制的SKU,这是英特尔独一无二的价值所在,让我们优化的产品组合来支持广泛的需求。”Lisa Spelman说到。

发布之前已成功出货20万片

根据英特尔公布的数据显示,不到十年的时间里,英特尔已经部署了超过10亿个至强核心,为云提供动力。自2017年英特尔推出第一款至强可扩展处理器到现在,英特尔已经向全球客户交付了超过5000万颗至强可扩展处理器,支持着全世界的数据中心。截至目前,预计已经有超过800个云服务提供商部署了基于英特尔至强可扩展处理器的服务器。

对于此次发布的第三代至强可扩展处理器,英特尔表示,在2020年底就投入生产,行业现在正在逐步采用。2021年一季度,英特尔一直在加大生产力度,而在此次发布会之前,英特尔第三代至强可扩展处理器就已经出货超过20万片。

另据透露,所有主要的云服务提供商都计划部署基于第三代至强可扩展处理器的服务,大部分会在4月份首次推出此类服务。还有超过50个优秀的OEM、ODM预计将向市场推出超过250个基于第三代至强可扩展处理器的设计。此外,还有一些主要的网络供应商也正在利用第三代至强可扩展处理器更新他们的网络基础架构,目前他们正在进行初步的概念验证和部署。

Lisa Spelman表示:“未来我们打算继续加速出货,利用自身OEM的优势最大限度满足市场对第三代产品的需求。”

不惧AMD及Arm的挑战

众所周知,在全球的服务器芯片市场,英特尔可谓是一家独大。根据市场研究机构的数据显示,2016年之前,在全球数据中心服务器芯片市场,英特尔的市场份额高达99%,Arm服务器芯片的市场份额不到1%。

不过随着2017年AMD发布第一代EPYC服务器芯片,重新向数据中心处理器市场发起冲击之后,得益于出色的Zen架构以及台积电的先进制程的加持,仅过了两年的的时间,2019年AMD在服务器市场的份额就迅速从1%增长到了8%。而去年底AMD还推出基于Zen 3架构的第三代EPYC服务器芯片(代号Milan),这将是一款基于台积电7nm工艺制程,最高64核心的产品。外界认为,新一代性能更强的EPYC服务器芯片将助推AMD市场份额的进一步提升。

与此同时,近两年Arm服务器市场也迎来了快速的发展。目前,富士通、Marvell、亚马逊、华为、飞腾、Ampere都在力推基于Arm指令集的高性能服务器CPU。一直跟踪HPC中Arm CPU销售情况的Hyperion Research的数据显示,2019年有5万颗Arm芯片被用于HPC, Hyperion预计该数字到2020年将超过23.3万颗,到2024年将超过61万颗。

显然,作为服务器芯片市场的霸主,在遭受来自AMD以及Arm服务器芯片厂商的夹击之下,英特尔确实感受到了一些压力。特别是对于AMD在服务器市场份额的快速增长,英特尔也确实有必要进行反击。

根据英特尔提供的数据显示,英特尔第三代至强可扩展处理器(Xeno Platinum 8380)在高性能计算、云端及AI能力上都要优于代号Milan的64核的AMD EPYC 7763。

而根据Anandtech的测试数据显示,10nm 40核心的英特尔Xeno Platinum 8380在单核的IPC性能上确实也是要优于64核心的AMD EPYC 7763。

△图片来源:Anandtech、知乎@MebiuW

但是,在多核的场景下,10nm 40核心的英特尔Xeno Platinum 8380就要比7nm 64核心的AMD EPYC 7763逊色一些,毕竟后者多了24个核心。

△图片来源:Anandtech、知乎@MebiuW

不过,Anandtech并未测试Xeno Platinum 8380与AMD EPYC 7763在AI性能上的差距。而得益于英特尔第三代至强可扩展处理器在AI性能上的强化,根据英特尔的数据显示,Xeno Platinum 8380通过硬件及软件优化上的提升,在深度学习和推理方面的性能相比AMD EPYC 7763性能提高了25倍。

为了更好体现与竞品在实际应用当中的AI性能差异,英特尔选择了20个最常见的机器和深度学习模型(包括训练和推理)来进行综合对比。数据显示,英特尔Xeno Platinum 8380相比AMD EPYC 7763在这20个AI工作负载上的性能平均提升了1.5倍。

综合来看,虽然英特尔第三代至强可扩展处理器在制程工艺的数字上、处理器的内核数量上要低于AMD的第三代EPYC服务器芯片,但是在单核性能及AI性能上仍然超出了后置,并且第三代至强可扩展处理器当中新加入的安全解决方案,也是AMD第三代EPYC服务器芯片所不具备的。

值得注意的是,根据最新的爆料显示,AMD下一代的Zen 4核心,也将加入对于AVX-512指令集和人工智能深度学习常用的bfloat16浮点格式的支持,并且可能会采用台积电的5nm工艺,EPYC核心数也会从64核激增到96核。显然,AMD仍然将会发挥其EPYC服务器芯片在制程工艺和核心数量上的优势,同时也将会补足在AI能力上的欠缺,从而与英特尔在服务器市场进行竞争。

对此,英特尔公司市场营销集团副总裁、中国区数据中心销售总经理陈葆立表示,英特尔最主要的并不是在比拼几纳米对几纳米,谁的工厂快,谁的工厂慢,而应该是聚焦产品本身。“第三代至强能够帮助到我们的客户,不管是做人工智能还是大数据,还是数据库,可以给客户带来更好的性能提升,其实客户也不在乎我们是用什么做的,只要产品够好就足够了,这一点也是我们的重点,我们致力于为客户提供最好的产品。”

英特尔公司市场营销集团副总裁、中国区数据中心销售总经理 陈葆立展示第三代至强可扩展处理器(Ice Lake)

“英特尔整个服务器芯片的迭代,如何去做一个比较好的平衡,不管是在制程还是核数上,或者说前面提到的工作负载的加速指令和配套的产品组合,包括安全性,硬件加速等等的功能,这些功能在我们设计芯片的时候都是需要多做很多事情的。我们觉得把这些功能做好,可能能够更好的满足客户需要的东西,而不是纯粹选一个核数,这是我们设计产品最重要的一个点。前面提到的第三代至强可扩展处理器在AI上的性能大幅领先竞品,也已经证明通过AI加速可以提高客户的收益,而不仅仅是增加核心的数量。”

确实,英特尔提供的并不仅仅是服务器CPU,还拥有自己的GPU、FPGA、Habana AI芯片、傲腾持久内存、傲腾固态盘、以太网适配器等非常广泛的可以应用在服务器上的产品组合。英特尔也表示,未来会需要CPU以及不同的XPU更好地协同合作,才能解决未来的问题和挑战。此外,英特尔还拥有自己的晶圆制造和封装能力,这在当前晶圆代工市场产品极为紧缺的背景下,显得尤为重要。而以上这些则都是其他竞争对手所完全不具备的。

对于近年来众多Arm芯片厂商纷纷杀入服务器芯片市场的情况,陈葆立则表示,“过去多年来,Arm服务器芯片厂商做了很多的尝试,但至少目前他们并没有取得多少市场份额。我们也非常重视所有的竞争对手,但是X86整个的软件生态是经过十几年的积累出来的,是非常成熟的,所有这些并不是一天两天就可以实现的。这也正是我们最为关键的生态优势。”

“服务器是一个单价很高的产品,调查显示,企业购买一个服务器,他们最关心的是可靠性、稳定性、大规模部署的能力。而在这些方面,英特尔至强过去那么多年,5000万颗的出货量,非常多软件开发商在上面已经跑过了很多版本优化的软件,这对客户来讲是非常大的一个吸引力。所以我们还是对未来的至强的发展非常有信心。”陈葆立进一步解释到。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容