百度发布云端AI芯片“昆仑”:算力高达260Tops成本降低10倍,或对部分通用型服务器芯片形成替代

毫无疑问人工智能(AI)已经成为了整个人类社会发展的一大必然趋势,未来AI将进入我们生活的每个角落。而随着AI技术的发展及加速应用,人工智能市场也出现了爆发式的增长。据预测,全球人工智能直接与间接应用规模将从2016年的6.4亿美元增长到2025年的368亿美元,增长近57倍。在这种趋势之下,拥有庞大数据优势的互联网厂商都纷纷在AI领域投入重注。国内的BAT也都开始“All in AI”。

而实现AI则离不开三个关键要素:数据、芯片和算法。

BAT等互联网厂商之所以“All in AI”,主要在于其拥有的庞大的数据优势。此前国外知名媒体《经济学人》就曾发表封面文章称,“数据已经取代石油成为当今世界最有价值的资源”。

虽然,机器学习依赖于大数据,对应的数据越多,机器学习就可以学得越准确越快速,它的能力越强。但是,让机器懂得如何去学习的算法才是关键。此前百度李彦宏就曾表示:“真正推动社会进步的是算法,而不是数据”。当然,算法也是基于数据而形成的训练/推理模型。

得益于在数据上的强大优势,以及庞大的资源的投入,使得互联网厂商在AI算法上也很快取得了优势。

但是,AI算法的实现需要依赖于芯片,而不同的算法对于芯片的需求也是不同的,对于特定算法,专用型的AI芯片(ASIC)的加速要远远优于通用型芯片。这也使得越来越多的互联网厂商开始推出自己的定制化AI芯片。

百度发布国内首款云端全功能AI芯片"昆仑"

在去年8月的加州Hot Chips大会上,百度发布了首款AI云计算芯片的XPU,这是一款256核、基于FPGA的云计算加速芯片。时隔近一年之后,今天(7月4日),百度CEO李彦宏在Baidu Create 2018百度AI开发者大会上,正式发布百度自研的中国第一款云端全功能AI芯片"昆仑",其中包含训练芯片昆仑818-300,推理芯片昆仑818-100。

据介绍,百度AI芯片“昆仑”基于三星14nm工艺,由几万个小核心构成,内存带宽高达512GB/s,算力高达260Tops,功耗100+瓦特。

综合来看,“昆仑”拥有高性能、高性价比、易用3大特点:
(1)高效:针对语音、NLP、图像等专门优化;
(2)低成本:同等性能下成本降低10倍;
(3)易用:支持paddle等多个深度学习框架;编程灵活度高;灵活支持训练和预测。

据介绍“昆仑”是中国在大规模AI运算实践中催生出的芯片,基于百度8年的CPU、GPU和FPGA的AI加速器的研发,20多次迭代而生,是中国第一款云端全功能AI芯片,也是目前为止业内设计算力最高的AI芯片。可高效地同时满足训练和推断的需求,除了常用深度学习算法等云端需求,还能适配诸如自然语言处理,大规模语音识别,自动驾驶,大规模推荐等具体终端场景的计算需求。

百度发布AI芯片“昆仑”:算力高达260Tops,成本降低10倍

李彦宏表示,中国改革开放40年来,在我们的发展过程当中,对于高端芯片而言,其实一直依赖进口,这是我们这一代从业者心中永远的痛。当进入人工智能时代,情况将会发生改变。百度自主研发的高端芯片,将去满足全世界开发者的各种需求。支撑数十万开发者为社会造福。

对于百度AI芯片“昆仑”的发布,中国著名计算机专家,首批中国工程院院士倪光南表示:中兴事件发生后,各界都十分关注发展我国芯片产业,许多互联网企业和传统电子企业纷纷表示,要大力投入资金和队伍发展芯片事业,这种积极性应当肯定。这次百度发布了AI芯片,说明他们说到做到,这无疑是对我国芯片事业做出了贡献。

或对部分通用型服务器芯片形成替代

众所周知,目前在云端的服务器/数据中心,更多的还是依赖于传统的X86 CPU或者GPU来做AI运算。现在部分厂商也有开始采用可重复编程和可重新配置的FPGA来进行AI运算。

虽然CPU、GPU等通用型芯片以及FPGA可以适应相对更多种的算法,但是定制型的AI芯片的计算能力和计算效率都直接根据特定的算法的需要进行定制的,所以其可以实现体积小、功耗低、高可靠性、保密性强、计算性能高、计算效率高等优势。所以,在其所针对的特定的应用领域,定制型的AI芯片的能效表现要远超CPU、GPU等通用型芯片以及半定制的FPGA,同等量级下,成本也更低。

所以,百度称其AI芯片“昆仑”实现了“同等性能下成本降低10倍”,这也并不难理解。

目前人工智能技术仍处于快速发展当中,大量的新的算法不断涌现,原有的算法也在持续优化,而且这种变化以各自的方式在加速。而定制型AI芯片由于其在设计之时就是针对特定算法进行固化的,所以无法做到灵活的适应各种算法。这也使得定制型的AI芯片目前为止并未开始在数据中心/服务器领域大规模应用。

不过,对于百度这样的互联网巨头来说,其很多领域的需求都是非常明确和相对固定的,在其庞大的数据驱动下,不少领域的软件、算法也已经趋于成熟和稳定,在这种情况下,百度进一步追求性能和能效的最佳化,选择采用定制型的AI芯片也是必然。

比如,百度的搜索业务已经发展了十多年了,在这个领域相关的软件和算法都已经非常的成熟,百度完全可以采用定制型的AI芯片部署到其搜索服务器当中。其他的一些比较成熟的地图业务也同样如此。

而且以百度对于服务器芯片的需求的量级,也完全能够支撑的起自己的AI芯片业务(芯片出货的量级越大,成本越低)。而且,采用自己的定制型AI芯片,不仅可以降低芯片的采购成本,同时在AI计算上也更加的高效,安全性也可以更高,还可以降低用电成本(同等性能下,功耗更低),对于大型的数据中心来说,电费也是一项很大的成本。另外,采用自主的AI芯片也可以给百度的服务带来较大的差异化,提升核心竞争力。

虽然,在此次大会上,百度并未详细介绍“昆仑”的何时量产,但是不难预见的是,未来在百度自己的数据中心/服务器当中将会逐步部署自己的AI芯片来替代传统的服务器芯片。

需要补充说明的是,这里说的替代传统的服务器芯片是指在AI运算上的替代。未来通用型的CPU肯定会持续存在的,只不过针对性的AI加速计算会被ASIC替代。但对于复杂的条件和分支预测,通用类型数据运算还是需要CPU的。比如,一些手机SoC当中虽然集成有专用的AI内核(比如麒麟970的NPU),但是其主要还是只能针对一些特定的AI算法进行加速,而对于其他的一些通用型的数据运算还需要依赖于SoC当中的CPU、GPU来实现。

8年的努力,“昆仑”终成

事实上,百度很早就开始了基于云端AI芯片的研究。

早在2011年起,百度就开始基于FPGA研发AI加速器,并同期开始使用GPU,从而满足深度学习运算的需要。在过去几年中,百度对FPGA和GPU都进行了大规模部署。

2013年1月,百度正式宣布成立深度学习研究院(IDL),李彦宏亲自担任院长。同时,百度也在美国建立了“深度学习研究中心”。

2014年5月,百度在美国硅谷成立硅谷人工智能实验室(AI Lab)。同年7月,百度又成立大数据实验室。

去年,百度AI技术平台体系AIG成立,开始进一步深度整合包括NLP、KG、IDL、Speech、Big Data等在内的百度核心技术。

去年8月,百度在美国Hot Chips大会上与赛灵思合作发布XPU,它是一款256核、基于FPGA的云计算加速芯片。开发者只能用汇编语言,根据百度研究院的说法,其效率与CPU相当。百度还在一个月后推出FPGA/GPU云服务器。

此外,百度去年还发布DuerOS智慧芯片,但这款芯片由紫光展锐RDA5981集成,采用了ARM公司mbed OS内核及其安全网络协议栈。

在去年9月,百度高级副总裁王劲在接受采访时就透露,百度已经打造了FPGA版的百度大脑,性能远超此前的版本。而这个项目则源于2012年,当时面对百度大脑对计算能力的强烈需求,百度就开始决定自主设计深度学习专有的体系结构和芯片。

百度总裁张亚勤也表示,人工智能算法、万物互联、超强计算推动云计算发生质变,进入以ABC(AI、Big Data、Cloud Computing)融合为标志的Cloud 2.0时代。即将AI计算、大数据计算、云计算开始融合到一起。而在这种趋势之下,采用定制型的AI芯片来应对这种融合型的需求也是必然。

百度也强调,其AI芯片“昆仑”是一款全功能AI芯片,针对语音、NLP、图像等方面进行了专门的优化。

据百度介绍,“昆仑”是百度在大规模AI运算实践中催生出的芯片,基于百度8年的CPU、GPU和FPGA的AI加速器的研发,20多次迭代而生。

百度称,其AI芯片战略将以开放生态合作的方式来有条不紊地推进。未来,百度将面向智能汽车、智能设备,语音图像等更多场景,持续打造AI时代的中国“芯”力量。

至此,随着百度自主研发的云端AI芯片“昆仑”的发布,再加上百度AI开放平台、自动驾驶开放平台Apollo、智能语音开放平台DuerOS、深度学习开源平台PaddlePaddle、百度大脑等底层技术开放平台,百度的AI生态已经形成了一个完整的开放的“闭环”。

作者:芯智讯-浪客剑

 

0

付费内容

查看我的付费内容