12月23日消息,近日中科驭数宣布自主研发的第二代DPU芯片K2成功点亮,这也是第一颗国产的ASIC形态的DPU芯片。
数据中心面临算力和带宽增速比失调,DPU应运而生
随着数字经济的推进,每年各行业产生的数据量以30%的速度增长,网络带宽从10G向20G、100G、400G迈进,然而后摩尔定律时代,CPU的性能以每年不足3%增长,网络传输、存储等任务就已经让CPU不堪重负,无法再有更多的资源用于计算、任务管理调度等。
数据中心面临迫切的算力架构变革,DPU作为新型数据专用处理器,可以针对基础设施层(IaaS)的计算负载,通过创新的专用DPU计算架构,解决“CPU处理效率低下、GPU处理不了”的任务负载,例如网络协议处理,高速存储协议,硬件资源虚拟化等。通过将这些基础层负载卸载到专用的DPU上处理,释放CPU的算力资源来更好的服务上层应用,从而提升整个计算系统的效率、降低整体系统的总体拥有成本(TCO)。
面对市场的需求,国际芯片厂商纷纷入局DPU,目前国际厂商有NVIDIA、Intel(收购Bearfoot)、AMD(收购DPU初创公司Pensando)等国际芯片大厂纷纷入局DPU。
英伟达在2020年推出BlueField-2系列DPU,BlueField-2DPU具有较强的网络处理功能,可支持200G高速以太网或 InfiniBand两种接口。包含支持网络、存储、加密、流媒体等计算的专用加速器,同时具有面向安全、虚拟化、硬件隔离和远程管理的功能。
在2021年的Intel Architecture Day上,英特尔推出了基于FPGA和 ASIC的两种实现方式的IPU产品。英特尔IPU 全称为“Infrastructure Processing Unit”,是一种面向基础设施应用的处理器,作为一种可编程网络设备,旨在帮助云与通信服务提供商减少相关任务对中央处理器(CPU)的资源开销需求,并进一步释放相关平台的性能潜力。
2021年6月28日国际厂商Marvell发布了基于5nm工艺的OCTEON10系列DPU,搭载了算力强劲的Arm Neoverse N2核,并且配备了多种硬件加速模块,包括加解密、包处理及人工智能推理加速器。同时为了提供用户友好的可编程接口,提高应用开发效率,Marvell配套硬件设计了包括DPDK、Marvell ML toolchain等在内的软件开发平台。
2022年初AMD以19亿美金收购DPU创业公司Pensando,Pensando的分布式服务平台包括了一个高性能、完全可编程的数据包处理器和全面的软件堆栈,可加速云、企业和边缘应用程序的网络、安全、存储和其他服务。
头部芯片大厂纷纷布局DPU领域,也凸显DPU做为继CPU、GPU之后,数据中心的“第三块主力芯片”,也正成为业界的共识。
首款ASIC形态的国产DPU芯片,中科驭数K2成功点亮
中科驭数是国内DPU芯片研发的领军企业,是国家专精特新小巨人企业,至今已经开展三代DPU芯片的研发迭代。公司近一年多来获得了三轮数亿元规模的融资,被评为中国信科“潜在独角兽”。
在核心技术特色上,中科驭数自研了敏捷异构KPU芯片架构,提出了软件开发平台HADOS,研发了网络卸载引擎NOE和数据计算卸载引擎DOE。以“软件定义加速器”为核心技术路线的专用计算架构KPU,解决了专用处理器设计碎片化的问题,KPU架构具有软件定义可配置、低设计成本、计算高效的优势。HADOS是中科驭数自研的DPU软件开发平台,是支撑DPU硬件平台的专用软件框架,生态兼容性高,可兼容多种操作系统,可以大幅降低应用软件开发难度。
在DPU产品的研发迭代上,中科驭数于2019年流片了第一代DPU芯片K1,第二代DPU芯片K2于2022年流片,基于DPU芯片核心技术,中科驭数研发了超低时延DPU网卡、RDMA加速卡、数据查询加速DPU卡、以及面向金融计算领域的极速风控、极速行情等解决方案。
在市场推广上,不仅在金融计算领域实现规模化应用,市场应用也开拓到了数据中心、通信、云计算等领域。已经实现几千万规模的营收。
2021年中科驭数牵头发布了行业首部DPU技术白皮书,2022年发布了DPU评测技术白皮书,有力地推动了DPU领域的标准化。
“K2是中科驭数的第二代DPU产品,K2成功点亮为DPU芯片规模化量产打下了坚实的基础,是驭数DPU走向成熟的一大步。”中科驭数创始人、CEO鄢贵海评价K2点亮的意义时提及,K2完成研发时,正值国家提出东数西算战略,生而逢时。
据介绍,K2采用28nm成熟工艺制程,可以支持网络、存储、虚拟化等功能卸载,是目前国内首颗功能较完整的ASIC形态的DPU芯片,具有成本低、性能优、功耗小等优势。尤其在性能上,具有极其出色的时延性能,可以达到1.2微秒超低时延,支持最高200G网络带宽。在应用场景上可以广泛适用于金融计算、高性能计算、数据中心、云原生、5G边缘计算等场景,有望成为最快规模化落地应用的国产DPU芯片。
K2之所以选择28nm成熟工艺制程,主要是由于28nm已经满足了中科驭数实现功能的要求,而且K2比较复杂,它里面用到的其他IP比较丰富,而这些IP在28纳米的工艺线上面验证的比较充分。综合来看,28nm的工艺成熟度、安全性、性价比更高,同时又能达到中科驭数的功能的诉求。
对于为何选择ASIC路线,鄢贵海认为,基于ASIC的DPU是能产生规模化效应的,能覆盖大量FPGA的方案覆盖不到的细分市场。另外,无论是从成本来算,还是从最后的功耗,以及本身的散热水平来看,ASIC也是最适合的。
谈及K2研发的挑战,中科驭数联合创始人、高级副总裁(兼CTO)卢文岩表示:“一年时间内完成集成和芯片化研发难度是很大的,并且在技术路线上我们选择了一条性能最好也是最困难的一条路,采用自主研发的KPU芯片架构。”
源于过往几年的技术积累,K2得以顺利流片。“我们团队在芯片体系结构领域有超过15年的积累,在2019年我们就完成了第一代芯片K1,我们在网络、存储、计算等领域积累了TOE、RDMA、NVMe-oF、大数据处理等功能核。”虽然技术积累深厚,卢文岩认为K2达到阶段性里程碑,依赖于研发团队坚韧不拔的协作精神。
据卢文岩介绍,整个K2项目投入了200人研发,进行了60余次方案评审,芯片前端进行了近40万行代码的开发;DPU是一个与应用密切相关的芯片,在研发阶段就要完成云原生、存储、金融计算、边缘计算等5大场景的应用的原型适配;在功能仿真和测试阶段要完成数千个验证和测试用例。
卢文岩强调,K2这颗DPU从功能的完善程度上来看,是目前国内的ASIC DPU里面最完善的一颗。后续还将会推出增强版的K2Pro。
值得注意的是,目前阿里巴巴、亚马逊都有自己的DPU,头部的云厂商可以说是DPU的主要客户,他们也往往最了解自己需要什么样的DPU,现在软件定义芯片也是一大趋势,在这样的背景之下,云厂商自研或者与云厂商深度绑定的DPU厂商,似乎更具有优势,对于中科驾数这样的第三方独立的DPU芯片厂商来说,如何应对这样的挑战呢?
在鄢贵海看来,DPU终将会成为一颗相对标准的芯片,会变成是整个计算的基础设施里面的一部分。如果把DPU理解成一个应用型的芯片,那可能是应用厂商能做得好。但如果DPU的定位是在基础设施层的芯片,可能还是得由第三方来做。在芯片的行业里面,其实很少看到应用侧的厂商自己把芯片做得很好的(芯智讯这里插一句,其实在手机市场,这个方向是也已经被证明的,比如苹果、华为自研芯片的成功)。比如GPU最大的用其实是游戏厂商,但是从市场发展来看,游戏厂商也并没有自己做GPU。
“芯片有它自己的逻辑,比如云厂商自研了DPU,他首要服务的目标还是服务自身的应用生态里面的厂商,对于其他的一些厂商来看,他们要用到DPU的时候未必会用云厂商自研的DPU。一方面是跟竞争、安全有关。另一方面,其他的基础设施可能跟这个云厂商不太一样,即使拿这个云厂商的DPU也不一定能适配到你的系统,这个工作量未必是小的,这里面有哪个厂商愿意帮你做适配呢。”鄢贵海进一步举例解释到。
鄢贵海认为,DPU还是一个复杂的事情,虽然中科驭数在这一块已经做了好几年,但仍然觉得还有大量的技术难题需要攻克,绝对不是说投入几百个工程师就能轻松搞定的事情。需要随着整个应用的基础设施的改进而改进。做出一颗DPU本质上没有那么困难,但是要保证DPU的技术迭代跟上整个基础设施的演进步伐,这个才是难点。作为DPU厂商来看,不应该只是某几个头部厂商,应该看到的是整个计算基础设施技术的演进,DPU的产品要随着这个技术的演变而做,这才是让DPU最后真正变成核心的主流芯片的正确态度,也是独立的第三方才具有这样的态度。
“我的目标不是满足少数头部客户的需求,我的目标是我们的产品应该能对于后面的ICT的技术,跟他们同步迭代。”鄢贵海强调:“短时间内跟哪个云厂商绑定的紧不紧,并没有那么重要。绑的紧并不代表它的方案就是最优的,可能只是短期能更容易的拿个单子而已。这种思路不见得对DPU的发展具有生命力。”
“在DPU芯片研发上,中科驭数会一如既往怀着如履薄冰的谨慎,风雨兼程,始终以提供优质创新方案满足客户需求为宗旨,加强研发投入,打磨产品,充分发挥出DPU的优势,推进规模化应用,做DPU行业的开拓者!”鄢贵海总结说到。
编辑:芯智讯-浪客剑