12月14日下午,2021年度“OPPO未来科技大会”正式在深圳召开。在本次会议上,OPPO正式发布了传闻已久的首款自研芯片——6nm工艺的马里亚纳MariSilicon X。
△OPPO芯片产品高级总监姜波展示MariSilicon X
据介绍,MariSilicon X是全球首款专为影像而生的专用NPU芯片,其AI算力高达18TOPs,超过苹果A15,能效比也达到了11.6TOPs/W。同时还支持高达20bit Ultra HDR及实时RAW计算,能最大程度发挥OPPO定制的RGBW传感器的能力,破解了传统手机影像的诸多难题。
为了详细地揭秘OPPO的首款自研芯片MariSilicon X,在一周之前,芯智讯对OPPO芯片产品高级总监姜波进行了专访。
一、为什么要自研芯片?
对于全球头部的智能手机厂商来说,自研芯片早已是一项不可或缺的核心竞争力。不论是在自研芯片上早已获得成功的三星、苹果、华为,还是正在努力当中的小米、OPPO和vivo。特别是在人工智能时代,自研芯片不仅能够更好地实现自身软硬件的协同,解决用户关心的痛点,同时也能够为手机品牌厂商带来更多的差异化。
在OPPO芯片产品高级总监姜波看来,像OPPO这种一线的终端公司,本原就是从消费者角度出发的,对于硬件能力的认知和需求,很多也是从用户场景反推过来的,并不是简单地判断需要什么样规格的芯片,再看可以用在哪些场景、技术的选择更多是为了解决用户的痛点。所以,当OPPO发现这些痛点及面临的问题难以使用通用SoC解决时,自研芯片就成为了一个必然。
“我们在最初做这颗芯片的时候,终端产品线的同事会问我们,额外增加这个芯片之后对电池容量有多少影响?包括对手机整个的DoU(Day of Usage)有什么影响?我们就需要去看各种场景下带来的DoU损失是多少,以及带来的好处是多少,这样问题才能解决。所以这样的好处是,任何问题都是从用户视角出发的。”姜波表示:“我个人认为,行业里像OPPO这样的厂商,恰恰是因为在一线接近消费者,有自己的算法能力、硬件设计能力,甚至是上游摄像头、传感器的整合能力,当你处在一个产业链里非常重要的一环时,你有机会做到更深度的整合、更优化的设计的时候,就一定会去做。”
至于自研芯片带来的成本及投资回报问题,姜波表示,“只要做自研芯片,投入就会很大,如果这颗芯片可以帮我们解决一些我们在用户侧的一些痛点和价值点,那就值得去投入。”
二、为什么是影像NPU?
对于智能手机厂商来说,自研芯片并不是一个新鲜事。
不过,从小米澎湃S1手机SoC芯片的经验来看,对于原本在手机芯片研发上并没有太多积累的手机品牌厂商来说,贸然就开始研发手机SoC主芯片,则具有非常高的难度和风险。
2014年,小米就成立了松果电子研发手机SoC芯片,随后在2017年,小米正式推出了首款自研手机SoC芯片“澎湃S1”,并由小米5C首发搭载。但是,这款历时28个月研发制造的芯片整体表现并不理想,在小米5C之后就再也没有被商用。而后续传闻中的澎湃S2似乎也因为多次流片失败而终结。
相比之下,先从手机SoC主芯片以外的外围芯片切入则相对简单,也更容易获得成功。
在目前用户对于手机影像性能要求越来越高的背景之下,很多手机厂商也选择了从影像相关芯片方面进行入手。
比如,小米和vivo都纷纷选择从关乎手机影像拍摄质量的关键芯片——ISP(图像信号处理器)芯片入手。今年3月底,小米就发布了自研的手机ISP芯片澎湃C1。9月初,vivo也发布了自研的手机ISP芯片V1。小米和vivo均表示,自研的ISP芯片结合自研的算法,可以帮助手机进行更精细、更先进的图像处理。
同样,OPPO也认为,影像能力一直是智能手机用户最为关心的痛点之一。因此,我们也可以看到,过去十年来,在OPPO不同的旗舰产品上,为了提升影像拍摄能力,除了配备旗舰级的SoC之外,OPPO还在不断通过定制图像传感器、定制摄像头模组、定制镜头来推动影像硬件上的创新。
资料显示,仅仅是为了完成将RGBW影像技术写入传感器硬件这一操作,OPPO就在近3年的时间内投入了300位影像工程师以及亿元级别的成本,积累了87项技术专利。
随着手机影像技术的发展,由于智能手机的内部空间的限制,单纯依靠提升图像传感器尺寸及其他光学单元的性能,来提升拍摄的影像效果已经遇到了瓶颈,于是通过AI算法来对拍摄效果进行优化的“计算影像”就成为了新的方向。
所以,OPPO并未选择跟小米、vivo一样自研ISP芯片,而是结合了过去在图像传感器定制、摄像头模组定制、镜头定制方面的技术积累,更进一步选择了难度更高的影像NPU。因为OPPO认为,未来计算影像将主导整个影像新的技术发展,传统ISP解决不了的暗光视频等需要AI才能解决的难题,影像NPU完全有机会给出一个更好的解答。
但是,通用的手机SoC当中的包括NPU在内的各类计算单元通常都只是针对通用的AI影像算法进行优化,而手机厂商的自研AI影像算法与通用SoC芯片之间很难做到相互的完全开放、完全的紧密耦合,这也使得通用SoC芯片无法发挥出手机厂商自研AI影像算法的最大能力。
为此,姜波展示了一组实际测试数据。以OPPO目前在Find X3 Pro上商用落地的OPPO AI降噪算法为例,虽然Find X3 Pro搭载的是高通的旗舰芯片骁龙888,其内部也拥有独立的NPU,结合高通第六代AI引擎,整体AI算力高达26 TOPS,但是在跑OPPO自研的AI降噪算法时,最多可以跑2fps(帧/秒),而且功耗也接近了1.7W。
这也意味着该AI降噪算法只能运用到拍照降噪上,不能运用到视频降噪上。因为,视频最少需要30fps的帧率,要基于OPPO的自研AI降噪算法在骁龙888平台上做到30fps的降噪,就需要将算力提升到现有算力的15倍,即使骁龙888的算力可以继续提升,但是这也意味着功耗也将达到1.7W的很多倍,显然这对于智能手机来说是难以接受的。
另一方面,比如OPPO还与索尼有合作定制图像传感器,而定制化的图像传感器也需要手机SoC的紧密配合才能发挥出最大的效果,而手机SoC的开发周期非常长,而定制图像传感器的开发周期则相对较短,这也使得双方很难实现很好的配合。
“所以,OPPO为了能够充分发挥定制图像传感器以及自研AI影像算法的能力,选择从一颗影像专用NPU入手,希望通过AI的方式去解决一些还没有被解决的手机影像问题。同时,也只有通过影像专用NPU,才能解决目前ISP和通用算力不足难题,这才是未来影像发展的主流方向。”姜波说道。
三、为什么采用成本高昂的6nm工艺?
作为OPPO的首款自研芯片,MariSilicon X一开始的定位就比较高端,采用的是目前领先的台积电6nm制程工艺。这对于初入自研芯片领域的OPPO来说可谓是极具挑战的。
首先,越先进的制程工艺,往往意味着设计的难度越高,可以用到的第三方的成熟IP也就越少。
其次,越先进的制程工艺的芯片开发,往往也需要更多的研发投入,同时在流片和制造成本上也是非常的高。
根据几年前国外Semiengingeering网站曾发布过一篇工艺和芯片开发费用的文章显示,28nm节点的芯片开发成本约为5130万美元;16nm节点则需要1亿美元;7nm节点需要2.97亿美元;5nm节点,开发芯片的费用将达到5.42亿美元;3nm的开发费用有可能超过10亿美元。考虑到这是数年前的数据,再加上MariSilicon X并不是一款SoC芯片,在设计开发上没有那么的复杂,其开发费用可能并没有那么高,但估计也需要到1亿美元以上级别。
另外,对于先进制程的芯片来说,越先进的制程工艺,其流片和制造的成本也就越高。有消息显示,6nm芯片的一次流片费用就高达1500万美元。
所以,我们也可以看到,不论是小米澎湃C1还是vivo V1都没有选择6nm工艺,而是采用了成熟的12nm工艺。
那么为什么OPPO 的MariSilicon X还是选择了6nm工艺?
对此,OPPO芯片产品高级总监姜波在接受芯智讯采访时也表示,OPPO在最开始评估采用何种工艺制程时确实评估过12nm制程的可能性:如果做一颗12nm的芯片,不仅可选择的基础IP更多,资源的可获取性(比如一些接口IP)也更好,而且整个产品的开发周期也要短很多。但是,12nm工艺很难达到OPPO预期的在终端层面的极致性能和功耗要求,所以最终选择了6nm工艺,实现了同级最好的能效比,也得以在RAW域能够实现复杂AI算法的处理。
选择6nm工艺,也给OPPO带来了很多的难题。
比如,MariSilicon X需要峰值吞吐量非常高的MIPI接口。如果选择12nm工艺,虽然很容易能够找到第三方MIPI接口IP,但能效远超预期。虽然6nm工艺节点上也有一些第三方MIPI接口IP,但是可选择范围较小,且依然是满足不了OPPO估算的数据量要求。因此,OPPO的芯片研发团队最终选自了自研MIPI IP。
“用12nm可以更容易的做出一颗商用的芯片。但是,我们发现用12nm做完之后在很多场景下出来的效果,可能还不如之前单纯靠5nm SoC做出来的整体效果,那么增加一颗NPU芯片就没有意义。那就丧失了我们做一颗芯片的初心和原点了。“姜波坦言。
四、MariSilicon X有何过人之处?
对于MariSilicon X这款芯片的优势,可以总结为以下几大核心能力突破:
1、核心自研IP加持,带来极致能效比
据介绍,MariSilicon X的AI算力可达18TOPS@int8(72TOPS@int4 equivalent),高于苹果A15的15.8TOPS。在供强大AI算力的同时,MariSilicon X功耗也得到了很好的控制,其能效比达到惊人的11.6TOPS/W。
要知道,目前绝大多数NPU能效比都在10TOPS/W以内。比如IBM今年初推出的基于7nm工艺的“全球首款”高能效AI芯片,其在int4 精度下的能效为 8.9TOPS/W;7nm NVIDIA A100 GPU在int4精度下的能效比为 3.12TOPS/W;7nm的联发科处理器(应该是天玑1200)在int8精度下能效比为3.42TOPS/W。
▲IBM 7nm高能效AI芯片与7nm芯片性能及能效比参数对比
姜波强调,:“对于手机NPU来说,AI算力的提升并不是难点,因为这是可以通过增加NPU的面积把算力堆起来的。但是,手机内部的空间是有限的,并且有着严苛的功耗及热性能的限制,所以高能效比才是关键。而要想实现11.6TOPS/W能效比则是非常难的。
“而且这个能效比是基于随机生成图片(人眼难以识别的)实测得到的,如果是基于现实世界里的人像、风景等真实的图片进行处理,这个能效比将超过12TOPS/W。”
虽然,MariSilicon X 的6nm工艺所带来的提升,也是其高能效比的一个因素,但是更为关键的还是MariSilicon X当中NPU单元并没有采用第三方的NPU IP,而是采用了OPPO自研的MariNeuro IP,以达到OPPO需要的最优能效比。
那么,之前在骁龙888上只能跑2fps、功耗达到1.7W的OPPO自研的AI降噪算法在MariNeuro NPU上能有多大的提升呢?答案是速度提升了20倍达到了40fps,使得OPPO自研AI降噪算法可以应用到视频降噪当中,同时功耗仅有800mW,能效比更是提升了40倍。显然OPPO自研影像NPU所带来的实际提升是非常惊人的。
△基于MariSilicon X的4K Ultra HDR视频降噪效果
△基于MariSilicon X的4K AI夜景视频效果
2、多级专用高速内存系统
除了NPU本身的架构使得它能够有更高的能耗效率和更高的利用率之外,内存子系统也是极为关键的,因为内存和运算对于AI整个系统是相辅相成的,如果内存变成瓶颈,形成“内存墙”的话,即使有再高的算力也无法发挥。
所以,OPPO还为MariNeuro NPU定制了一个Tb/秒级的片上内存子系统,这也使得NPU架构设计在与算法紧密耦合的同时,内存系统也是根据算法和场景要求进行相应定制优化的。
姜波解释称:“我们根据自己的算法和网络模型,我们知道它的网络复杂度有多少,需要多大容量和速度的片上内存去处理,才能达到一个最优的目标。其数据传输速度可达数万亿比特/秒(Tb/s),远高于外部的DDR内存。”
在配备片上内存的同时,OPPO还设计了一个多级的内存控制系统,并针对MariSilicon X配备了独立DDR带宽,这个采用了LPDDR4X的DDR带宽为8.5Gb/s,是与MariSilicon X的Die封装在一起的,对于一些速度要求没那么高的数据可以跑在专用的内存上去做。
OPPO表示,从整个系统层面来看,当MariSilicon X跟一个SoC主芯片搭载在一起使用的时候,整个系统的DDR吞吐率增加了17%。
3、20bit Ultra HDR
目前智能手机在继屏幕尺寸、分辨率及材质的持续提升之后,屏幕的高动态范围 (HDR)显示效果,正在成为智能手机厂商及用户追逐的热点。同样,对于手机影像拍摄来说,HDR效果也已经成为了关键点。
所谓HDR(High-Dynamic Range,高动态范围),是一种能够提供更大的动态范围以及图像细节的显示技术,可根据不同的曝光时间的LDR(Low-Dynamic Range,低动态范围图像),并利用每个曝光时间相对应最佳细节的LDR图像来合成最终HDR图像。HDR能够更好地反映出真实环境中的视觉效果,即实现接近人眼所能覆盖的色域,亮度和对比度范围。
高通最新发布的新一代骁龙8就集成了三核18-bit ISP,且支持18bit RAW格式拍摄。同样,联发科发布的天玑9000的第七代的Imagiq ISP,也支持18bit HDR。
不过,OPPO此次推出的MariSilicon X则更进一步,带来了更为极致的支持人眼级别的20bit的计算位宽以及20bit Ultra HDR,能覆盖100万:1的最大亮度范围,即一张照片当中最暗和最亮的部分相差了100万倍,达到了新一代骁龙8及天玑9000的4倍。
而这其中主要得益于MariSilicon X当中另外一个非常重要的OPPO自研IP——MariLumi影像处理单元,其信噪比处理能力达到了120db。相比新一代骁龙8等能够带来至少有8dB信噪比的增强,相当于2.6倍的提升。
4、实时RAW计算
对于经常玩单反相机的朋友来说,RAW格式并不陌生,这是一种未经过压缩的无损原生照片格式,它完整地记录了CMOS或者CCD图像传感器将捕捉到的光信号转化为数字信号的原始数据。
相对于其他的例如JPG等压缩照片格式,RAW格式的优势在于,其是未经过任何的处理和压缩的无损原生格式,最大程度保留了照片拍摄的原始信息,这也使得其拥有更大的后期制作空间。此外,RAW还支持无损调节,同时也使得前期拍摄的环境色温、曝光度等参数能够有更多的容忍度(后期可以调整)。
随着智能手机影像技术的发展,RAW计算也开始被引入到智能手机的拍照当中。OPPO也认为,RAW域是计算影像的黄金点,因为这给了后期的计算影像处理带来了更大的发挥空间。
传统的手机影像计算,通常是将图像传感器输出的RAW信息经过SoC当中的ISP转换成RGB信息,再转换成YuV(比如MPEG、JPEG等格式),这其中每一步的转换都是有信息损耗的。现在手机做AI降噪的算法也是放在YuV阶段来做的,HDR也是在YUV里合成的,而这种做法做多只能做到18bit HDR。
MariSilicon X之所以能够支持20bit Ultra HDR,是因为其将传统只能在YuV后处理阶段完成的AI计算放到了最前端的RAW域计算,即图像传感器记录的原始RAW影像信息直接传输给MariSilicon X进行处理,之后再输出给SoC中的ISP。
具体来说,OPPO的做法是将YUV的算法做成RAW算法,通过MariSilicon X直接在RAW域进行AI计算,即通过在无损的原生数据基础上进行AI处理,从而得到效果更好的影像处理结果。MariSilicon X可以支持20bit RAW实时处理,并且在RAW域合成HDR Fusion。为整个影像链路输出无损计算后的高质量数据。这样的好处,就是在4k场景下,让图像亮部有8dB的增强,暗部可以有12dB的增强,也就是说图像暗部的信噪比可以达到4倍的有效提升。
虽然在RAW域计算能够带来更好的影像效果,但是这也使得算法复杂度大大增加,同时20bit RAW的数据量非常大,要在RAW域进行大量的实时AI算法计算,也使得MariSilicon X的强大算力及高能效比特性变得尤为重要。只有比原来的SoC直接处理效果更好、速度更快、更低功耗,加入自研芯片才更意义。
5、RGBW传感器能力全面释放
对于智能手机来说,暗光拍摄效果的提升一直是一个难点,虽然可以通过采用更大光圈、更大尺寸的传感器来有效提升进光量,从而提升暗光拍摄表现,但是由于手机内部空间及厚度的限制,使得这方面的提升也受到了限制。
于是乎,通过从底层改变传感器排列,进而提升进光量的方法也成为了另外一个方向。比如RGBW传感器的像素阵列,就是通过引入对光线更加敏感的白色子像素(W)显著提升感光能力,从而在暗光环境下拍摄出更亮的照片。
2019年,OPPO研发团队受到当时流行的像素聚合技术的启发,又创造性地提出了四合一像素聚合技术与RGBW技术相结合,即全新RGBW传感器在每组4个子像素中引入2个W像素,从而让每个像素都能具备R(红)、G(绿)、B(蓝)和W(白)信号的识别能力。这也就是今年8月发布的新一代RGBW捕光传感器IMX709。
但是,由于OPPO与索尼联合定制的RGBW传感器属于新的传感器,并且应用量也相对有限,所以目前通用的手机SoC并不能很好地发挥出OPPO定制的RGBW传感器的最大能力。
“如果想要用上RGBW传感器,第一步要做的就是在传感器端把RGBW做一个remosaic,变成传统的RGGB信息,再传送给SoC处理。实际上这个处理过程中,已经丢失了一些有用的信息。虽然,我们希望让RGBW sensor pattern(传感器像素排列)发挥最大价值,但为了与通用的SoC配合,我们必须要做一些妥协和损耗,才能达到可以用上RGBW。”姜波解释道。
为了更好发挥出OPPO定制的RGBW传感器的能力,MariSilicon X在设计时就充分考虑了这一点,将MariSilicon X与RGBW传感器进行了紧密的耦合和最大限度的优化。
比如,在设计图像处理pipeline的时候,OPPO做了两条链路,一路是做RGGB信号处理,同时有一路是做White信号处理,这两路都是进行RAW计算,所以对于处理能力的要求也要增加数倍。
根据OPPO公布的实测数据显示,相比一路pipeline效果,通过MariSilicon X进行两路pipeline的处理,可以得到8.6dB的信噪比提升。同时,在纹理细节上,通过两路pipeline的超采样,可以到1.7倍的解析力的增强。
姜波自豪地说到:“我们通过自研芯片和定制化sensor相互的化学反应和相互耦合,真正将sensor在最初设计时候的最大能力充分发挥。”
小结:
通过上面的介绍及官方公布的相关参数,我们不难看出,MariSilicon X这款影像NPU确实非常的强大。虽然,OPPO在MariSilicon X的研发当中也是获得了很多合作伙伴的帮助,但是核心IP基本都是OPPO自研的,这也主要得益于OPPO强大的芯片研发团队的自研能力。
据芯智讯了解,OPPO是2019年开始研发芯片的,为了开发MariSilicon X,OPPO组建的芯片研发团队高达2000人(不排除同时有研发其他芯片),其中很多核心人员都是来自于一线的半导体大厂,比如OPPO芯片产品高级总监姜波就来自于高通。
作为对比,vivo自研的ISP芯片V1,300人研发团队,历时2年时间研发完成。不过,这里需要补充的是,根据网上的爆料显示,vivo V1并不是由vivo独立完成的,而是与联咏合作设计的,采用了很多第三方的IP。
另外,比起其他综合型的NPU,MariSilicon X专注在影像上的设计也实现了更强的视频性能。
不过,姜波也坦言:“虽然如语音识别等AI算法也可以在MariSilicon X的NPU上来跑,但是肯定不会像影像AI算法跑得那么好。“因为在设计这款芯片时,我们就已经有所取舍,我们在影像上,尤其是针对视频上,要做很大的优化和投入,所以针对视频和照片相关的影像处理,它是拥有极佳功耗的性能的NPU。反过来,像语音这种,它就不是最佳的,所以它的灵活性也是有一定限制的。”
总结来说,MariSilicon X是一款性能强大且拥有极致能效比的影像专用NPU。并且MariSilicon X还首次将20bit RAW计算、Ultra HDR、4K AI HDR视频降噪集成在一起,使得不论是拍照还是视频录制体验都能够带来显著的提升。
“马里亚纳MariSilicon X是 OPPO未来十年影像的开篇之作,它的问世标志着OPPO在计算影像领域首次实现了全链路垂直整合,将完全服务于OPPO定制化的计算影像需求。 随着明年一季度搭载MariSilicon X的全新Find系列旗舰推出,将推动安卓终端第一次实现计算摄影的里程碑式跃迁,这将为整个行业的计算影像提供一个新的标杆,相信未来整个行业都会朝着这个方向发展。”姜波总结道。
作者:芯智讯-浪客剑