北京时间5月26日晚间,Arm正式公布了其最新的高端移动内核IP,即Cortex-A78 CPU、Mali-G78 GPU以及Ethos-N78 NPU,它们将为2021年及以后的下一代旗舰智能手机提供动力。与此同时,Arm还推出了全新的支持自定义的Cortex-X系列内核。
Cortex-A78:5nm下性能提升20%,功耗降低50%
据介绍,Cortex-A78 CPU内核是基于Austin微架构的第三代产品(前两代是Cortex-A76和Cortex-A77),不过,Cortex-A78并没有盲目追求性能提升,依然是注重于性能、功耗和面积的平衡。
根据ARM的说法,Cortex-A78的架构性能(也就是IPC)只提升了7%,功耗降低了4%,内核小了5%,四核簇面积的缩小了15%。虽然微架构上变化不大,但是如果跟工艺结合起来,那Cortex-A78在5nm加持下就变化很大了。
在同样的每核心1W功耗下,基于7nm工艺的Cortex-A77主频可以达到2.6GHz,而基于5nm工艺的Cortex-A78频率可达3.0GHz,性能提升了20%左右。
在能耗方面,在相同的性能下,5nm工艺的2.1GHz Cortex-A78功耗比7nm工艺2.3GHz的Cortex-A77降低了50%,有助于提高5G手机的续航。
Arm表示,Cortex-A78主要面向2021年及以后的下一代旗舰智能手机。不过考虑到现在已经接近年中,最快可能也要2021年底见到相应的产品。Arm也没提到有哪些公司现在应用了这个架构。
全新Cortex-X系列内核:为性能而生
除了Cortex-A78之外,Arm此次还推出了全新的Cortex-X系列CPU内核,Cortex-X1则是该系列的首款CPU内核。
与Cortex-A78还要兼顾性能、功耗、面积不同,Cortex-X1使用了全新的架构,是Arm专门为实现性能大幅提升而设计的。
Cortex-X1还提供了更灵活的定制特性。大家都知道,Cortex-A系列公版授权能改的地方不多,主要就是缓存部分,而Cortex-X1则允许客户进行自定义,有更多的不同特性,在研发早期阶段就允许客户参与。
从架构细节上来看,Cortex-X1与Cortex-A78都是ARMv8.2指令集下的,指令集是兼容的,但Cortex-X1是自定义CPU内核,解码带宽从4路提升到5路,增加了25%,NEON浮点从2×128b提升到了4×128b,相当于浮点性能翻倍。缓存方面,Cortex-X1的L1缓存可达64KB,L2缓存1MB,L3缓存可达8MB,均是Cortex-A78的两倍。
那Cortex-X1的性能提升到底如何呢?根据Arm公布的资料显示,与Cortex-A77架构相比,Cortex-X1的整数性能提升了30%,比最新的Cortex-A78也提升了22%,机器学习性能提升了100%。
当然,那些性能提升是理论值。在SPEC2006的测试中,单核性能提升4%到30%不等,似乎并没有想象中的给力。不过需要指出的是,这个测试仍是基于Arm公版Cortex-X1的性能,而后续各芯片厂商推出的自定义的版本性能或将更强。
有了Cortex-X1之后,第一个想到的其实就是超大核,因为高通、华为在骁龙865、麒麟990上都设计了三簇核心,不像之前的4+4大小搭配,而是变成了2+2+4或者1+3+4等,将其中1个或者2个大核心独立出来,频率也是最高的。
现在Cortex-X1的问世,实际上就代表着Arm官方认可了这种多核配置,甚至Cortex-X1可以跟Cortex-A78、Cortex-A55核心搭配起来。
一种典型的组合就是1个Cortex-X1超大核、3个Cortex-A78大核,再加上4个Cortex-A55低功耗小核,搭配1MB L2、8MB L3,组成一套DynamIQ集群。
4个Cortex-A78、搭配4MB L3缓存,其性能比前代升20%,同时核心面积降低15%,而1个Cortex-X1、3个Cortex-A78搭配8MB L3缓存的话,虽然核心面积会增加15%,但峰值性能提升了30%。
Mali-G78:性能提升25%
除了通用计算部分更新升级 ,Arm又带来了新的旗舰级Mali-G78 GPU、次旗舰级Mali-G76 GPU。
去年的Mali-G77首次采用了全新的Valhall图形架构,得到了顶级SoC的广泛采纳,而这次的Mali-G78自然是它的升级版,最突出的就是首次支持到24个核心,相比Mali-G77 16个增加了一半。
Arm宣称,综合架构、工艺等各方面的改进,Mali-G78相比于Mali-G77的性能提升幅度可达25%,即便是在同等工艺条件下也可提升15%, 同时能效提升10%,机器学习性能提升15%。
除了扩大规模,Mali-G78在架构方面也做了升级改进,但并不是很多,官方重点强调的只有一点,就是从整个GPU只有一个全局时钟域,改为新的两级结构,实现了上层共享GPU模块与实际着色器核心频率的分离,也就是异步时钟域。
这样一来,GPU的核心可以工作在与其他部分不同的频率上,可快可慢,从而解决几何输出与计算、纹理、引擎之间的不平衡问题,还能让GPU运行在不同电压上,从而降低功耗、提高能效,这也是桌面级CPU、GPU通用的做法。
另外,Mali-G78彻底重写了FMA(融合乘加)引擎,包括新的乘法架构、新的加法架构、FP32/FP16浮点,可以节省30%的功耗。
Mali-G78 还有一个名为 Mali-G68 的小改款,定位中端,其核心设计与 G78 完全相同,区别在于最高仅支持 6 个 GPU 核心,用限制核心数量来区隔产品之间的性能上限。
Ethos-N78
Arm还推出全新的第二代NPU内核Ethos-N78,主要负责机器学习任务,相比上一代 Ethos-N77 峰值运算性能提升超过 2 倍,能效提升 25%。
N78将提供超过90种不同的配置,为专门的工作流程。这意味着,芯片设计厂商计划实现一些严重依赖于机器学习性能的新功能,它可以选择一个针对该用例表现最佳的改进版本。
编辑:芯智讯-林子 综合自网络