2023年4月6日下午,时隔三年,地平线再度回到深圳面向媒体召开了一场主题为“一路征程·胜算在5”的地平线技术开放日活动,介绍了地平线过去几年所取得的一些成绩,以及征程5所取得的最新进展,并曝光了下一代BPU(Brian Processing Unit)架构。
3年多时间,征程芯片出货已超280万颗
“今年是地平线成立8周年。地平线在技术和商业层面都取得长足进展:到目前为止,地平线已与超过20家车企展开定点合作,取得了120多个车型的前装定点,量产车型超过50款,征程系列芯片累计出货超280万颗。在生态建设方面,也积累了100多家生态合作伙伴。”这是地平线市场与品牌高级总监陈遥在活动上公布的关于地平线在自动驾驶领域所取得的最新成绩。
在疫情三年间,汽车行业遭遇了严重的“缺芯”问题,给国内汽车产业发展带来一定的阻碍,但同时也推动了国产汽车芯片的加速崛起。特别是国内智能汽车产业的高速发展,进一步助推了对于国产自动驾驶芯片的需求。
自2019年8月,地平线首款车规级自动驾驶芯片征程2的发布,再到2020年9月发布的征程3芯片,以及2021年7月发布的国内首款支持L4级自动驾驶的征程5,到现在总共也就三代产品,累计出货量就已经达到了280万颗,要知道在2020年底地平线征程系列芯片出货量还不到20万颗,这也足以反映地平线在过去数年来在汽车智能驾驶芯片领域的成功。
在陈遥看来,“这些成绩对于地平线,乃至整个中国自动驾驶产业的发展也有里程碑意义。”而在这些成绩的背后则离不开强大的研发实力的支撑。据了解,目前地平线的研发团队已扩大到了1500多人,拥有的专利达到了1000多项。
值得一提的是,在前面公布的与地平线达成定点合作20多家车企当中,就包括了像比亚迪、长城、长安、一汽、理想、广汽、东风等国内的头部车企。这里面还包括了非常多爆款的车型,比如长安UNI系列、理想ONE、理想L8等。据透露,很快就会有搭载地平线征程芯片的比亚迪车型推出。
破除算力迷信,真实计算效能才是关键
近年来,随着摩尔定律推进的持续放缓,先进制程升级所带来的性能提升开始变得越来越有限,但是成本却在快速提升。摩尔定律正在趋于失效,其所能够带来的经济效益正在衰退。相比之下,智能计算对于算力的需求在7年间提升了6倍。这也意味着,我们需要通过先进制程、先进封装和架构创新的“组合拳”来提升算力。
目前在AI芯片或自动驾驶芯片领域,评价芯片性能的关键指标都是TOPS,即每秒1亿次计算的峰值算力能力,但是各家自动驾驶芯片厂商所公布的这个算力指标,大都是基于半导体硅片的理论峰值性能。这个主要依赖于芯片的架构的创新及半导体工艺制程的提升,并未体现出将相关AI算法部署到芯片上之后所带来的软硬件架构创新的实际能力。
在地平线看来,对于自动驾驶汽车来说,需要配备非常多的传感器,比如会有很多个摄像头,并且分辨率在持续提升,还有激光雷达、毫米波雷达(未来也会走向图像化的4D毫米波雷达),这也意味着自动驾驶芯片实际需要处理的更多是图像数据,那么每秒钟能处理多少帧图像,这才是真实的算力体现,而不是理论上每秒钟能进行多少次的计算。
△地平线联合创始人兼CTO黄畅
“一个车辆马力是多少,这与容量,发动机的类型,包括发动机本身的调校有相当大的关系,但是用户实际是体验不到马力的,用户的体验是百公里加速度,这跟车的扭矩、底盘、变速器,变速箱、车身重量、轮胎等整个系统有关,需要端到端去看,才能够将标称的马力,变成百公里加速是多少。同样自动驾驶芯片的这峰值算力,具体到汽车系统当中,对用户而言能够感受到的则是每秒能够处理多少帧图像,这才是用户可感知的,作为端到端系统的外部视角下的产品性能。”地平线联合创始人兼CTO黄畅举例解释道。
对此,地平线早在2016年就提出了“智能计算的新摩尔定律”,即自动驾驶芯片的真实计算效率应该以每瓦特或每个美金成本所带来的图像处理速度来进行衡量,而这不仅取决于理论的芯片峰值计算效能有关,也取决于对于芯片算力的利用率(芯片架构和编译器优化)和算法的效率(算法的创新)。
以特斯拉的自动驾驶硬件平台HW3.0为例,其部署了两颗自研的自动驾驶芯片,单芯片的峰值算力都是72TOPS算力,两颗整合在一起是144TOPS,虽然这个算力只有特斯拉之前的HW2.5(基于英伟达的Drive PX2平台)的6倍,但是每秒钟的处理图像帧率却提升了21倍,达到了每秒2300帧。显然特斯拉HW3.0实际的图像处理能力的提升,更多是得益于特斯拉自研的自动驾驶芯片计算架构及算法升级所带来的计算效率的提升。
黄畅告诉芯智讯:“在过去9年里,包括图像识别、语音识别、自然语言处理等主要AI算法发展非常的快,平均每9-14个月就会迎来一次重大的升级,即在保证相同任务精度的条件下,每9-14个月,新的算法所需的计算次数就会降低一半甚至更多。显然算法的持续升级对于计算效率的提升有着非常大的助力,远高于摩尔定律所能带来的性能提升速度。但是,算法部署在计算架构上,它的真正有效利用率,也受限于计算的架构是否适配,受限于芯片带宽,受限于软件能否充分调度硬件上所有的计算器件,并且把带宽充分利用到极致等一系列的问题。因此,对于算力的真实有效利用率很关键,这非常考验芯片设计企业的对于算法的理解和计算架构设计能力。特斯拉在这件事情上思考的更加深刻,在算法和软硬结合的架构优化上做的更彻底,这也使得其HW3.0相对于HW2.5所带来的真实性能的提升远大于其物理算力的提升的关键。”
同样,对于车企来说,也需要破除对于各种TOPS物理算力的迷信,因为物理算力与晶体管数量和芯片的成本成正比,意味着提升物理算力时将付出更高的成本,但是这个付出的成本可能并没有带来多少真实性能(FPS)的提升。相比之下,提升单位的真实性能则更具“性价比”。
单颗征程5可实现城市NOA,出货量已超10万颗
基于对于真实计算性能的追求,地平线在做自动驾驶芯片时,一直非常注重软硬结合,持续面向先进的算法趋势去进行联合优化设计,这也推动了地平线自研的计算架构BPU的持续演进和进化。
在地平线看来,在过去很多时候把算法部署到硬件上,需要做很多的适配,性能提升需要做很多优化,这需要大量的人力投入,并且开发人员需要深刻理解算法、硬件和软件架构才能做到这一步。显然,这样的效率并不高。地平线将之称为智能计算架构的1.0时代。
那么,要怎样来提升效率呢?黄畅表示,我们需要面向未来,进入智能计算架构2.0时代。即把算法也引入到开发的过程中,大量的通过深度学习、神经网络智能的去解决从逻辑上描述的计算过程,到硬件上高效执行的指令序列之间的优化过程,不再需要算法开发者去理解硬件架构是怎么回事,怎么去优化每个算法,优化每条指令,让这些事情都可以交给机器去解决,从而大幅去降低开发门槛,而且还能够充分的把性能发挥出来。
黄畅强调,从“智能计算1.0”到“智能计算2.0”的迁移,需要从基于专家系统的规则实现,转向基于数据驱动为主的端到端联合优化方式,这里面既有端云结合的数据,化繁为简的算法,同时也有软硬结合的计算算力,需要把这三方面的能力结合在一起。这里面存在很多范式级别的智能算法,并且支撑软硬体系相结合,加速机器自编程和应用自适应。
因此,地平线在做BPU设计的时候,首先就聚焦于最新的神经网络的架构,面向未来去进行设计,将最新的算法考虑在其中。基于BPU架构的灵活性,再加上工具链的持续优化,使得征程芯片能够持续支持最新的算法。比如说在2017年的时候,地平线就将卷积神经网络考虑了进来,在2018-2020年EfficientNet大行其道的时候,地平线的BPU硬件就可以对它进行很好的支撑。
地平线最新的征程5虽然是2021年推出的一款自动驾驶芯片,但其BPU内核所采用的全新的贝叶斯架构,则是面向Transformer类型的算法架构,这在目前为止仍然是效果最好解决图像识别、检测、分割问题的基础架构。
同时,征程5还整合了全新的BEV(Bird\'s Eye View)感知框架,可输入车载周视或环视图像(序列),进行时空双维度中融合(middlefusion),使得神经网络原生输出鸟瞰视角下的动静态感知、预测结果,结合Transformer,可以整合成完整的端到端的架构。
具体来说,作为业界第一款集成自动驾驶和智能交互于一体的全场景整车智能中央计算芯片,征程5基于 SGS TV Saar认证的汽车功能安全(ISO 26262)产品开发流程体系打造,内置双核贝叶斯架构的BPU,单颗芯片AI算力最高可达 128 TOPS,可同时支持 6 路摄像头感知计算。在Ms coco网络模型上可以达到1531FPS的计算性能,远高于竞品,整体功耗不超过30瓦。并且整个链路端到端到控制信号处理延迟非常低,从踩刹车到输出延迟够做到低至60毫秒。
根据地平线公布的数据显示,与主流的基于GPU架构的自动驾驶芯片竞品相比,其峰值算力虽然达到了征程5的两倍以上,但是在实际的FPS处理速度上,征程5在多达71%的模型里高于主流竞品;在实际的FPS处理能效上,征程5的平均能效是主流竟品的5.58倍,其中76%的模型能效是竞品3倍以上。
△图上每个点实际上是把一个算法模型在征程5核竞品芯片上去跑得出的结果,在对角线的上方,说明处理速度/能效更高。
在征程5的实际上车表现方面,据地平线副总裁?&软件平台产品线总裁余轶南介绍,得益于征程5的高效计算能力,单颗征程5即可支持顺畅的高速NOA(自动辅助导航驾驶)体验,还支持包括ACC(自适应巡航系统)、拥堵的自动跟车、Cut in 应对、自适应的转弯、红绿灯入口不跟车直行、自动跟车、自动过路口等功能。
△地平线副总裁?&软件平台产品线总裁余轶南
为了赋能合作伙伴和客户,地平线还将从底层的整个征程系列的芯片到整个TogetherOS进行了开放,并提供了各种参考的算法、“天工开物”工具链、整个云端的开发平台“艾迪”,可以支持合作伙伴核客户基于征程芯片去开发更具差异化的智能驾驶、自动驾驶方案,包括车内的交互方案等。
比如,在今年的3月27日,轻舟就发布了行业首款基于单颗征程5的城市NOA方案。余轶南坦言:“我们自己做城区NOA的时候,其实用的是两颗征程5。但是轻舟基于我们的工具链在单颗芯片上就实现了,这件事情也是让我们非常惊喜。他们其实非常快地掌握了整个BPU的工具链,整个的编译器包括模型的训练,包括在我们的支持下他们怎么能够去调整他们的网络,使得他们的网络在我们芯片上跑出最高的效率,在非常复杂的城市环境下能够实现非常优质的NOA用户体验。”
除了轻舟、禾多、鉴智、觉非这样的软件厂商之外,地平线征程5的生态合作圈还包括金脉、映驰、天准等硬件IDH合作伙伴,以及福瑞泰克、大陆等Tier 1。
据介绍,征程5芯片自2021年正式发布,到2022年开始正式上车量产,目前已经获得超过10个车型的前装定点,并且去年就已经完成超过10万颗的出货量。
黄畅表示:“今年征程5出货量有望进一步的成长,还是很快的,这个芯片配合我们NOA,L2+产品方式是非常完美的组合,性价比非常高。”
下一代BPU架构:纳什架构
在此次的技术开放日活动上,地平线还提前透露了其下一代的BPU架构——“纳什架构”。
据介绍,基于纳什架构的BPU相对于征程5上的贝叶斯架构BPU会有非常显著的改善,比如会带来三级存储架构(将极大优化大参数下的带宽瓶颈),并且加入多脉动立方加速引擎(使得引擎间数据流动更高能效、低带宽占用)、数据排布变换引擎(可以更好地应对以Transformer为代表的这种新形态算法对于数据的data layout进行更灵活的更高效的转换需求)和浮点向量加速单元(使得算法的精度、可验证性都得到很好的提升),从而进一步去提升整体的峰值算力。
黄畅表示:“这些东西整合在一起,使得我们在这个架构上能够对于它的性能和功耗进行更细颗粒度的实时调控,这将带来更加极致的能效比。我们相信通过计算架构的演进,在未来3-5年时间里,地平线在最先进的包括Transformer、GPT这类算法,同时兼顾传统的卷积的类型算法方面,仍然在计算架构领域占据非常领先的地位。”
BUP IP授权已与一家车厂达成合作
在2022年3月的中国电动汽车百人会论坛(2022)上,地平线创始人兼首席科学家余凯就宣布在其原有的商业模式基础上,增加向部分整车厂开放其高性能自动驾驶处理器架构BPU IP授权,推动汽车芯片产业跃迁。
至此,地平线商业模式主要包括以下三种:一是提供BPU和SoC级别征程芯片以及操作系统OS,帮助车企完成自动驾驶软硬件系统开发; 二是提供BPU和SoC级别芯片,整车厂可以采用自研操作系统开发自动驾驶软硬件系统;三是提供BPU IP,支持车企实现SoC自研并采用自研操作系统和自动驾驶软硬件系统实现整车开发。
“很多人都认为地平线只是做自动驾驶芯片的,但实际上我们非常的开放,希望将我们核心的技术能力赋能到整个行业里,和我们的合作伙伴一起共创。这其中就包括了开源安全实时操作系统TogetherOS和提供BPU IP授权等。让整车开发从芯片到操作系统到整个的方案,都可以和合作伙伴一起共创、共建。这就像是Arm+Android的模式。”地平线联合创始人兼CTO黄畅在此次的地平线技术开放日活动上解释到。
具体到BPU IP授权业务方面,从地平线的角度来说,地平线不可能做出一款芯片能够适配任何场景,也不可能设计一堆的芯片去覆盖所有场景。因为,深入到具体应用场景,系统级的智能驾驶计算方案就需要针对产品需求进行设计。比如说接口、带宽、算力、存储的配置、特殊IP,整个系统非常复杂。以征程5为例,其内部大概有50到60多个子系统,每个子系统里还有很多IP,非常复杂。
从车厂的角度来看,自动驾驶或座舱域控,只是整车电子电气架构当中的一个子系统,如何设计芯片,应该配合整车架构的设计。各大车厂对整车电子电气架构,都有自己的认知和理解,要做一个真正完美的域控,集成到它的整车电子电气架构,恐怕没有一家汽车芯片公司能够完美满足。如果车厂自身一定的芯片设计能力,结合地平线提供的性能出色且经过验证的BPU IP,则可以相对比较容易的实现。
由于汽车芯片的研发成本高,投入周期长,并且需要有一定的量来支撑,这也使得目前主要也是一些头部的汽车企业有在自研汽车芯片,比如特斯拉、比亚迪、吉利等,因为自研芯片可以提升整体的竞争力,并有望降低采购成本。而其他的中小车厂自研芯片将会面临极大的风险。这似乎也意味着地平线开放BPU IP授权模式的前在客户群会非常的窄。
对此,黄畅表示,目前确实只有头部车企有能力和体量去自研芯片。但从另外一个角度来说,车厂做自研芯片也不完全考虑省钱或者赚钱,更多地还是会从提升整车的竞争力作为出发点,做出具有竞争力的产品,能够使得整车的电子电气平台、软件服务、自动驾驶、座舱服务上形成差异化的产品力。这也意味着中小型车厂也有望通过自研芯片来提升整车的差异化竞争力,进一步提升市场份额。而地平线的BPU IP授权模式,正好可以帮助他们更容易地设计和开发芯片,提升芯片研发速度,并大幅降低研发投入及失败风险。
据了解,自去年开放BPU IP授权模式以来,目前已经确认有一家车厂与地平线达成了这方面的合作,还有一家有意向的车企也正在推进当中。
“三年前,地平线就已经开始思考开放BPU IP授权这件事情,到了今天已经初步成功验证这方面能力。目前,我们和一些合作伙伴已经开始探讨深入的合作。未来,大家将看到不止是地平线的芯片,还有其他汽车芯片里面也装载着地平线的大脑(即BPU)、内核、以及IP。”黄畅非常有信心的说道。
编辑:芯智讯-浪客剑