一、 人工智能芯片发展现状及趋势
1、深度学习算法对芯片要求更为苛刻,通用 CPU 性价比相对较差
经历了 60 多年的起起伏伏之后,人工智能终于迎来了第三次爆发。第三次爆发的核心引爆点是深度学习算法的出现,但其背后的支撑是数据和算力。对整个 AI 行业来讲,算法、数据和算力三大基本要素中,数据尤其是海量数据的获取和处理难度在下降,算法也在深度学习模型的基础上不断优化,而负责将数据和深度算法统一协调起来的芯片能否获得大的飞跃,成为市场关注的焦点。
深度学习算法对芯片性能需求主要表现在三个方面:一、海量数据在计算和存储单元之间的高速通信需求。这不但需要芯片具备强大的缓存和片上存储能力,而且还需要计算和存储单元之间有较大的通信带宽。二、专用计算能力需求高。深度学习算法中有大量卷积、残差网络、全连接等特殊计算需要处理,还需要提升运算速度,降低功耗。三、海量数据自身处理同样也对芯片提出了新的要求,尤其是非结构化数据的增多,对传统芯片结构造成了较大的压力。
通用 CPU 在深度学习中可用但效率较低。比如在图像处理领域,主要用到的是 CNN(卷积神经网络),在自然语言识别、语音处理等领域,主要用到的是 RNN(循环神经网络),虽然这两种算法模型有着较大的区别,但本质上都是向量和矩阵运算,主要是加法和乘法,辅助一些除法和指数运算。传统 CPU 可用于做上述运算,但是 CPU 还有大量的计算逻辑控制单元,这些单元在 AI 计算中是用不上的,造成了 CPU 在 AI 计算中的性价比较低。
2、GPU、FPGA 以及 ASIC 各有优劣,成为当前 AI 芯片行业的主流
正因为 CPU 在 AI 计算上的弱点,给了可以实现海量并行计算且能够对进行计算加速的 AI 芯片留下了市场空间。从广义上讲,面向 AI 计算的芯片都可以称为 AI 芯片,包括基于传统架构的 GPU、FPGA以及 ASIC(专用芯片),也包括正在研究但离商用还有较大差距的类脑芯片、可重构 AI 芯片等。
云端训练芯片市场较为集中,而推理市场云、边两端均有大量企业参与
按照部署位置划分,AI 芯片可以分为云端芯片和边缘端芯片。云端芯片部署位置包括公有云、私有云或者混合云等基础设施,主要用于处理海量数据和大规模计算,而且还要能够支持语音、图片、视频等非结构化应用的计算和传输,一般情况下都是用多个处理器并行完成相关任务;边缘端 AI 芯片主要应用于嵌入式、移动终端等领域,如摄像头、智能手机、边缘服务器、工控设备等,此类芯片一般体积小、耗电低,性能要求略低,一般只需具备一两种 AI 能力。
按照承担的任务分,AI 芯片可以划分为训练芯片和推理芯片。训练是指通过大量标记过的数据在平台上进行“学习”,并形成具备特定功能的神经网络模型;推理则是利用已经训练好的模型输入新数据通过计算得到各种结论。训练芯片对算力、精度要求非常之高,而且还需要具备一定的通用性,以适应多种算法的训练;推理芯片更加注重综合能力,包括算力能耗、时延、成本等因素。
综合来看,训练芯片由于对算力的特殊要求,只适合在云端部署,而且多采用的是“CPU 加速芯片”类似的异构模式,加速芯片可以是 GPU,也可以是 FPGA 或者是 ASIC 专用芯片。AI 训练芯片市场集中度高,英伟达和谷歌领先,英特尔和 AMD 正在积极切入。推理在云端和终端都可进行,市场门槛相对较低,市场参与者较多。云端推理芯片除了传统的英伟达、谷歌、赛灵思等芯片大厂外,Groq等国际新兴力量也在加入竞争,国内寒武纪、比特大陆也有不错表现;终端推理芯片市场较为分散,场景各异,参与者除了英伟达、英特尔、ARM 和高通之外,国内企业如寒武纪、地平线、云知声、云天励飞等在各自细分领域均有所建树。
GPU 擅长云端训练,但需与 CPU 异构、功耗高且推理效率一般
GPU(Graphics Processing Unit)是一种由大量核心组成的大规模并行计算架构,专为同时处理多重任务而设计的芯片。正是由于其具备良好的矩阵计算能力和并行计算优势,最早被用于 AI 计算,并在云端获得大量应用。GPU 中超过 80%部分为运算单元(ALU),而 CPU 仅有 20%,因此 GPU更擅长于大规模并行运算。以英伟达的 GPU TITAN X 为例,该产品在深度学习中所需训练时间只有CPU 的 1/10 不到。但 GPU 用于云端训练也有短板,GPU 需要同 CPU 进行异构,通过 CPU 调用才能工作,而且本身功耗非常高。同时,GPU 在推理方面需要对单项输入进行处理时,并行计算的优势未必能够得到很好的发挥,会出现较多的资源浪费。
▲CPU与GPU架构对比
FPGA 芯片算力强、灵活度高,但技术难度大国内差距较为明显
FPGA(Field-Programmable Gate Array)即现场可编程门阵列,该芯片集成了大量的基本门电路以及存储器,其灵活性介于 CPU、GPU 等通用处理器和专用集成电路 ASIC 之间,在硬件固定之前,允许使用者灵活使用软件进行编程。FPGA 在出厂时是“万能芯片”,用户可根据自身需求,用硬件描述语言对 FPGA 的硬件电路进行设计;每完成一次烧录,FPGA 内部的硬件电路就有了确定的连接方式,具有了一定的功能;输入的数据只需要依次经过各个门电路,就可以得到输出结果。
FPGA 应用于 AI 有以下优势:
(1)算力强劲。由于 FPGA 可以同时进行数据并行和任务并行计算,在处理特定应用时效果更加明显,对于某一个特定的运算,FPGA 可以通过编辑重组电路,生成专用电路,大幅压缩计算周期。从赛灵思推出的 FPGA 产品看,其吞吐量和时延指标都好于 CPU 和 GPU 产品。
(2)功耗优势明显。FPGA 能耗比是CPU的10倍以上、GPU的3倍。由于在 FPGA 中没有取指令与指令译码操作,没有这部分功耗;而在复杂指令集(X86)的 CPU 中仅仅译码就占整个芯片能耗的约 50%,在 GPU 里取指与译码也会消耗 10%至 20%的能耗。
(3)灵活性好。使用通用处理器或 ASIC 难以实现的下层硬件控制操作技术,利用 FPGA 可以很方便的实现,从而为算法的功能实现和优化留出了更大空间。
(4)成本相对 ASIC 具备一定优势。FPGA 一次性成本(光刻掩模制作成本)远低于 ASIC,在芯片需求还未成规模、深度学习算法暂未稳定需要不断迭代改进的情况下,利用具备可重构特性的FPGA 芯片来实现半定制的人工智能芯片是最佳选择。
正因为存在上述优势,FPGA 被广泛用于 AI 云端和终端的推理。国外包括亚马逊、微软都推出了基于 FPGA 的云计算服务,而国内包括腾讯云、阿里云均在 2017 年推出了基于 FPGA 的服务,百度大脑也使用了 FPGA 芯片。
从市场格局上看,全球 FPGA 长期被 Xilinx(赛灵思)、Intel(英特尔)、Lattice(莱迪思)、Microsemi(美高森美)四大巨头垄断。其中,赛灵思和英特尔合计占到市场的 90%左右,赛灵思的市场份额超过 50%,国内厂商刚刚起步,差距较大。
专用芯片(ASIC)深度学习算法加速应用增多,可提供更高能效表现和计算效率
ASIC(Application Specific Integrated Circuits),即专用芯片,是一种为特定目的、面向特定用户需求设计的定制芯片,具备性能更强、体积小、功耗低、可靠性更高等优点。在大规模量产的情况下,还具备成本低的特点。
ASIC 与 GPU、FPGA 不同,GPU、FPGA 除了是一种技术路线之外,还是实实在在的确定产品,而 ASIC 只是一种技术路线或者方案,其呈现出的最终形态与功能也是多种多样的。近年来,越来越多的公司开始采用 ASIC 芯片进行深度学习算法加速,其中表现最为突出的 ASIC 就是 Google 的TPU(张量处理芯片)。
TPU 是谷歌为提升 AI 计算能力同时大幅降低功耗而专门设计的芯片。该芯片正式发布于 2016 年 5月。TPU 之所以称为 AI 专用芯片,是因为它是专门针对 TensorFlow 等机器学习平台而打造,该芯片可以在相同时间内处理更复杂、更强大的机器学习模型。谷歌通过数据中心测试显示,TPU 平均比当时的 GPU 或 CPU 快 15-30 倍,性能功耗比(TFOPS/Watt)高出约 30-80 倍。
但是,ASIC 一旦制造完成以后就不能修改了,且研发周期较长、商业应用风险较大,目前只有大企业或背靠大企业的团队愿意投入到它的完整开发中。国外主要是谷歌在主导,国内企业寒武纪开发的 Cambricon 系列处理器也广泛受到关注。其中,华为海思的麒麟 980 处理器所搭载的 NPU 就是寒武纪的处理器 IP。
3、短期内 GPU 仍将是 AI 芯片主导,长期看三大技术路线将呈现并行态势
短期内 GPU 仍将主导 AI 芯片市场,FPGA 的使用将更为广泛
GPU 短期将延续 AI 芯片的领导地位。GPU 作为市场上 AI 计算最成熟、应用最广泛的通用型芯片,应用潜力较大。凭借其强大的计算能力、较高的通用性,GPU 将继续占领 AI 芯片的主要市场份额。
当前,两大 GPU 厂商都还在不断升级架构并推出新品,深度学习性能提升明显,未来应用的场景将更为丰富。英伟达凭借着其在矩阵运算上的优势,率先推出了专为深度学习优化的 Pascal GPU,而且针对 GPU 在深度学习上的短板,2018 年推出了 Volta 架构,正在完成加速-运算-AI 构建的闭环;AMD 针对深度学习,2018 年推出 Radeon Instinct 系列,未来将应用于数据中心、超算等 AI 基础设施上。我们预计,在效率和场景应用要求大幅提升之前,作为数据中心和大型计算力支撑的主力军,GPU 仍具有很大的优势。
FPGA 是短期内 AI 芯片市场上的重要增长点,FPGA 的最大优势在于可编程带来的配置灵活性,在当前技术与运用都在快速更迭的时期,FPGA 具有明显的实用性。企业通过 FPGA 可以有效降低研发调试成本,提高市场响应能力,推出差异化产品。在专业芯片发展得足够完善之前,FPGA 是最好的过渡产品,正因为如此,科技巨头纷纷布局云计算 FPGA 的平台。随着 FPGA 的开发者生态逐渐丰富,适用的编程语言增加,FPGA 运用会更加广泛。因此短期内,FPGA 作为兼顾效率和灵活性的硬件选择仍将是热点所在。
长期来看 GPU、FPGA 以及 ASIC 三大类技术路线将并存
GPU 主要方向是高级复杂算法和通用型人工智能平台。(1)高端复杂算法实现方向。由于 GPU 本身就具备高性能计算优势,同时对于指令的逻辑控制上可以做的更复杂,在面向复杂 AI 计算的应用方面具有较大优势。(2)通用型的人工智能平台方向。GPU 由于通用性强,性能较高,可以应用于大型人工智能平台够高效地完成不同种类的调用需求。
FPGA 未来在垂直行业有着较大的空间。由于在灵活性方面的优势,FPGA 对于部分市场变化迅速的行业最为实用。同时,FPGA 的高端器件中也可以逐渐增加 DSP、ARM 核等高级模块,以实现较为复杂的算法。随着 FPGA 应用生态的逐步成熟,FPGA 的优势也会逐渐为更多用户所认可,并得以广泛应用。
ASIC 长远来看非常适用于人工智能,尤其是应对未来爆发的面向应用场景的定制化芯片需求。ASIC的潜力体现在,AI 算法厂商有望通过算法嵌入切入该领域,以进入如安防、智能驾驶等场景。由于其具备高性能低消耗的特点,可以基于多个人工智能算法进行定制,以应对不同的场景,未来在训练和推理市场上都有较大空间。
4、国内外 AI 芯片市场需求将保持较快增长势头,云端、边缘均具备潜力
近年来,伴随着全球 AI 产业的快速增长,AI 芯片需求大幅上升。按照 Gartner 最新数据,2018 年全球 AI 芯片市场规模达到 42.7 亿美元。未来几年,全球各大芯片企业、互联网巨头、初创企业都将在该市场上进行角逐,预计到 2023 年全球市场规模将达到 323 亿美元。未来五年(2019-2023年)平均增速约为 50%,其中数据中心、个人终端、物联网芯片均是增长的重点。
相比之下中金公司研究部公布的一组数据则更为乐观,该数据显示,2017年,整体AI芯片市场规模达到62.7亿美元,其中云端训练AI芯片20.2亿美元,云端推理芯片3.4亿美元,边缘计算AI芯片39.1亿美元;到2022年,整体AI芯片市场规模将会达到596.2亿美元,CAGR57%,其中云端训练AI芯片172.1亿美元,CAGR 53.5%,云端推断芯片71.9亿美元,CAGR 84.1%,边缘计算AI芯片352.2亿美元,CAGR 55.2%。
国内人工智能芯片行业发展仍处在起步阶段。长期以来,我国在 CPU、GPU 和 DSP 设计上一直处于追赶状态,绝大多数芯片依靠国外的 IP 核进行设计,自主创新能力不足。但我们也看到,国内人工智能产业的快速发展,也为国内芯片产业实现换道超车创造了机会。由于国内外在芯片生态上并未形成垄断,国内芯片设计厂商尤其是专用芯片设计厂商,同国外竞争对手还处在同一起跑线上。
目前国内人工智能芯片市场呈现出百花齐放的态势。AI 芯片的应用领域广泛分布在金融证券、商品推荐、安防、消费机器人、智能驾驶、智能家居等众多领域,催生了大量的人工智能创业企业,如地平线、深鉴科技、寒武纪、云知声、云天励飞等。我们认为,未来随着国内人工智能市场的快速发展,生态建设的完善,国内 AI 芯片企业将有着更大的发展空间,未来 5 年的市场规模增速将超过全球平均水平。
二、 AI 芯片主要应用场景
1、数据中心(云端)
数据中心是 AI 训练芯片应用的最主要场景,主要涉及芯片是 GPU 和专用芯片(ASIC)。如前所述,GPU 在云端训练过程中得到广泛应用。目前,全球主流的硬件平台都在使用英伟达的 GPU 进行加速,AMD 也在积极参与。亚马逊网络服务 AWS EC2、Google Cloud Engine(GCE)、IBM Softlayer、Hetzner、Paperspace 、LeaderGPU、阿里云、平安云等计算平台都使用了英伟达的 GPU 产品提供深度学习算法训练服务。
在云端推理市场上,由于芯片更加贴近应用,市场更多关注的是响应时间,需求也更加的细分。除了主流的 CPU GPU 异构之外,还可通过 CPU FPGA/ASIC 进行异构。目前英伟达在该市场依然保持着领军位置。主要原因是:GPU强大的并行计算能力(相比CPU)、通用性以及成熟的开发环境。但是GPU也并非是完美无缺的解决方案,明显的缺点如:高能耗以及高昂的价格。
相比之下,FPGA的低延迟、低功耗、可编程性优势(适用于传感器数据预处理工作以及小型开发试错升级迭代阶段)和 ASIC 的特定优化和效能优势(适用于在确定性执行模型)也正在凸显,赛灵思、谷歌、Wave Computing、Groq、寒武纪、比特大陆等企业市场空间也在扩大。
来自IDC和Gartner的数据也显示,全球AI服务器及AI芯片市场规模自2016年到2020年都将保持持续的高速增长,而与此同时全球云端AI芯片当中GPU的市场份额呈现出持续下滑的趋势,预计到2022年云端训练GPU占比将降至60%,云端推理GPU占比更是只有30%。
2、移动终端
智能手机在经历了近10年的高速增长后,市场已趋于饱和,出货增速趋近于0,行业逐渐转为存量市场。近年来,一批国产厂商在产品质量上逐渐达到了第一梯队的水平,进一步加剧了头部市场的竞争。为实现差异化竞争,各厂商加大手机AI功能的开发,通过在手机SoC芯片中加入AI引擎,调配现有计算单元来实现AI计算,或者直接加入AI协处理器,实现在低功耗情况下AI功能的高效运行。
随着未来竞争进一步加剧,以及产量上升所带来的成本下降,预计AI芯片将会进一步渗透进入到中等机型市场,市场空间广阔。移动端AI芯片市场不止于智能手机,潜在市场还包括:智能手环/手表、VR/AR眼镜等市场。AI芯片在图像及语音方面的能力可能会带来未来人机交互方式的改变并进一步提升显示屏、摄像头的能力,有可能在未来改变移动端产品。
以往通过云数据中心做手机端AI推理任务面临网络带宽延迟瓶颈的问题,严重影响用户使用体验,而CPU适合逻辑运算,但并不适合AI并行运算任务,目前市场上流行在SoC中增加协处理器或专用加速单元来执行AI任务。以智能手机为代表的移动互联网终端是一个多传感器融合的综合数据处理平台,AI芯片需要具备通用性,能够处理多类型任务能力。由于移动终端依靠电池驱动,而受制于电池仓大小和电池能量密度限制,芯片设计在追求算力的同时对功耗有着严格的限制,可以开发专用的ASIC芯片或者是使用功耗较低的DSP作为AI处理单元。
目前手机芯片市场存在以下情况:1)、AI应用场景、功能有限;2)、AI芯片厂商一般向SoC厂提供IP并收取授权费,需要AI-IP与整块SoC进行良好的匹配,而创业公司缺少与SoC厂商合作经验;3)、传统手机SoC厂商和IP厂商都在开发自己的AI加速器,传统IP巨头可以采取IP打包销售的方式推广其AI-IP产品。相比之下新进厂商在成本、功能、产品线、匹配度等都不占优的情况下很难在该领域存活。新进厂商应加强其软件方面优势,并加深与手机厂商合作共同进行手机AI功能开发。
3、自动驾驶
自动驾驶汽车装备了大量的传感器、摄像头、雷达、激光雷达等车辆自主运行需要的部件,每秒都会产生大量的数据,对芯片算力有很高的要求, 但受限于时延及可靠性,有关车辆控制的计算不能再依托云端进行,高算力、快速响应的车辆端人工智能推理芯片必不可少。
目前,自动驾驶所使用的芯片主要基于 GPU、FPGA 和 ASIC 三条技术路线。但由于自动驾驶算法仍在快速更迭和进化,因此大多自动驾驶芯片使用 GPU FPGA 的解决方案。未来算法稳定后,ASIC将成为主流。
根据美国汽车工程师协会(SAE)将自动驾驶按照车辆行驶对于系统依赖程度分为L0~L5六个级别,L0为车辆行驶完全依赖驾驶员操纵,L3级以上系统即可在特定情况下实现驾驶员脱手操作,而L5级则是在全场景下车辆行驶完全实现对系统的依赖。目前商业化乘用车车型中仅有Audi A8、Tesla、凯迪拉克等部分车型可实现L2、3级ADAS。预计在2020年左右,随着传感器、车载处理器等产品的进一步完善,将会有更多的L3级车型出现。而L4、5级自动驾驶预计将会率先在封闭园区中的商用车平台上实现应用落地,更广泛的乘用车平台高级别自动驾驶,需要伴随着技术、政策、基础设施建设的进一步完善,预计至少在2025年~2030年以后才会出现在一般道路上。
目前汽车电子控制系统是分布式ECU架构,不同的信息娱乐、车身、车辆运动和动力总成系统及其细分功能分别由不同独立的ECU单元进行独立控制,部分高档车型上的ECU数量超过100个。未来随着汽车进入L3级以上的高级别自动驾驶时代,随着车载传感器数量及其所产生的数据量剧增,分布式电子系统难以满足对大量、多元的传感器数据进行高效融合处理,并综合所有传感器数据做出车辆控制决策等一系列操作需求。要满足以上功能需求,汽车电子系统由需要向着域控制器(DCU)、多域控制器(MDC)等集中化方向发展,未来,汽车电子操控系统将会进一步向着集中化、软硬件解耦及平台化方向发展,汽车将会由统一的超算平台对传感器数据进行处理、融合、决策最终实现高级别的自动驾驶功能。
伴随人工智能技术在视觉领域的应用,基于视觉技术的自动驾驶方案逐渐变为可能,这需要在传统行车电脑平台上添加用于视觉算法处理的AI芯片。自动驾驶汽车计算单元设计需要考虑算力、功耗体积等问题,出于硬件资源最优化应用,往往采取异构计算平台设计方案,及“CPU XPU”(XPU包括:DSP/GPU/FPGA/ASIC),其中可采取DSP用于图像特征提取任务、GPU/FPGA/ASIC等计算单元用于目标识别、追踪任务等,而CPU则会用于定位、决策等逻辑运算任务。
目前最典型的产品如英伟达的DRIVE PX系列及后续的Xavier、Pegasus等。除硬件计算平台外,英伟达为客户提供配套的软件平台及开放的上层传感器布局和自定义模块使得客户能够根据自身需要进行二次开发,其还为客户提供感知、制图以及行驶策略等解决方案。目前其产品已经被包括ZF、Bosch、Audi、Benz以及Tesla等Tier1s、OEMs厂商及诸多自动驾驶创业公司采用作为其处理器方案所使用。
在全部的边缘计算场景中,用于自动驾驶的计算芯片设计难度最大,这主要体现在:1)算力要求高, L3级以上自动驾驶需要复数种类的传感器实现传感器冗余,包括:6~12颗单目摄像头、3~12台毫米波雷达、5台以内的激光雷达等(不同方案配置侧重不同),因此产生的数据量极大( 估计L5级一天可产生数据量4000GB),在车辆高速行驶的情况下系统需要能够快速对数据进行处理;2)汽车平台同样是由电池供电,因此对于计算单元功耗有较高的要求,早期计算平台功耗大、产热也较大,对于系统的续航及稳定性都有较大的印象;3)汽车电子需要满足ASIL-D车规级电子产品设计标准,而使自动驾驶所需要的中央处理器达到ASIL-D级设计标准难度更大。
目前自动驾驶市场尚处于发展早期,市场环境不够成熟,但以英伟达、Intel(Mobileye、Altera)等科技巨头为代表的厂商已经投入巨资在该领域开发出了相关的硬件产品及配套软件技术。人工智能芯片创业公司应该加强与OEMs、Tier1或产业联盟合作为其提供AI芯片 软件工具链的全套解决方案。
AI 芯片用于自动驾驶之后,对传统的汽车电子市场冲击较大,传统的汽车电子巨头(恩智浦、英飞凌、意法半导体、瑞萨)虽然在自动驾驶芯片市场有所斩获,但风头远不及英特尔、英伟达、高通甚至是特斯拉。国内初创企业如地平线、眼擎科技、寒武纪也都在积极参与。在自动驾驶芯片领域进展最快以及竞争力最强的是英特尔和英伟达,英特尔强在能耗,英伟达则在算力和算法平台方面优势明显。
英特尔进入自动驾驶芯片市场虽然较晚,但通过一系列大手笔收购确立了其在自动驾驶市场上的龙头地位。2016 年,公司出资 167 亿美元收购了 FPGA 龙头 Altera;2017 年 3 月以 153 亿美元天价收购以色列 ADAS 公司 Mobileye,该公司凭借着 EyeQ 系列芯片占据了全球 ADAS 70%左右的市场,为英特尔切入自动驾驶市场创造了条件。收购完成之后,英特尔形成了完整的自动驾驶云到端的算力方案——英特尔凌动/至强 Mobileye EyeQ Altera FPGA。英特尔收购 Mobileye 之后,后者也直接推出了 EyeQ5,支持 L4-L5 自动驾驶,预计在 2020 年量产。
英伟达在汽车AI芯片的竞争中不落下风。英伟达在2015年推出了世界首款车载超级计算机Drive PX,紧接着 2016 年推出 Drive PX2,2018 年推出新一代超级计算机 Drive Xavier,同年,基于双 Drive Xavier 芯片针对自动驾驶出租车业务的 Drive PX Pegasu 计算平台面世。2019 CES 上,英伟达推出了全球首款商用 L2 自动驾驶系统 NVIDIA DRIVE AutoPilot。DRIVE AutoPilot 的核心是 Xavier 系统级芯片。该芯片处理器算力高达每秒 30 万亿次,已经投产。
4、安防
安防市场是全球及国内 AI 最为确定以及最大的市场,尤其是 AI 中的图像识别和视频处理技术正在全面影响安防产业。其中,在安防产品中,摄像头、交换机、IPC(网络摄像机)、硬盘刻录机、各类服务器等设备都需要芯片,这些芯片也决定了整个安防系统的整体功能、技术指标、能耗以及成本。在安防芯片中,最为关注的还是四类与监控相关的芯片(ISP 芯片、DVR SoC 芯片、IPC SoC芯片、NVR SoC 芯片)。
ISP 芯片(Image Signal Processing,图像信号处理)主要负责对前端摄像头所采集的原始图像信号进行处理;DVR(DigitalVideoRecorder,数字硬盘录像机)SoC 芯片主要用于模拟音视频的数字化、编码压缩与存储;IPC (IP Camera,IP 摄像机)SoC 芯片通常集成了嵌入式处理器(CPU)、图像信号处理(ISP)模块、视音频编码模块、网络接口模块等,具备入侵探测、人数统计、车辆逆行、丢包检测等一些简单的视频分析功能;NVR (Network Video Recorder,网络硬盘录像机) SoC 芯片主要用于视频数据的分析与存储,功能相对单一,但由于多与 IPC 联合使用,市场增长也较快。
通常情况下,安防视频监控模拟摄像机的核心部件包括一颗图像传感器和一颗 ISP 芯片,安防视频监控网络摄像机的核心部件包括一颗图像传感器和一颗 IPC SoC 芯片。单从国内来看,未来国内视频监控行业增速仍将保持 12%-15%左右的水平增长,其中网络监控设备增长更为迅速,相关芯片产品需求十分旺盛。
安防 AI 芯片市场上,除了传统芯片以及安防厂商,还有大量的创业企业在涌入。国外芯片厂商主要有英伟达、英特尔、安霸、TI、索尼、特威、三星、谷歌等;国内厂商主要有海思(华为)、国科微、中星微、北京君正、富瀚微、景嘉微、寒武纪、深鉴科技、云天励飞、中科曙光等。英伟达、英特尔等企业凭借着通用处理器以及物联网解决方案的优势,长期与安防巨头如海康、大华、博世等保持紧密联系;国内寒武纪、地平线、云天励飞等企业,都有 AI 芯片产品面世,海思本身就有安防摄像机 SoC 芯片,在新加入 AI 模块之后,竞争力进一步提升。
从安防行业发展的趋势来看,随着 5G 和物联网的快速落地,“云边结合”将是行业最大的趋势,云端芯片国内企业预计很难有所突破,但是边缘侧尤其是视频处理相关 AI 芯片还是有较大潜力,国产化替代将加速。但也看到,AI 芯片离在安防领域实现大规模快速落地仍有距离。除了功耗和算力约束外,工程化难度大也是困扰行业的重要因素,尤其是在安防这种产业链长而高度碎片化的产业,新技术落地需要长时间的积累与打磨,以及人力资源的不断投入。
5、智能家居
智能家居近年来也成为人工智能重要的落地场景。从技术应用上讲,人类 90%的信息输出是通过语音,80%的是通过视觉,智能家居领域应用最多的就是智能语音交互技术。近年来,正是看到语音交互技术与智能家居深度融合的潜力,谷歌、苹果、微软均将其作为进入智能家居领域的重要切入口,发布了多款软硬件平台,如亚马逊推出的智能音箱设备。国内智能语音龙头企业科大讯飞较早就切入了该领域,联合地产商推出了硬件平台魔飞(MORFEI)平台,电视、咖啡机、电灯、空调、热水器等产品都能通过融入相关平台实现智能化。
当前,无论是智能音箱还是其他智能家居设备,智能功能都是在云端来实现,但云端存在着语音交互时延的问题,对网络的需求限制了设备的使用空间,而且由此还带来了数据与隐私危机。为了让设备使用场景不受局限,用户体验更好,端侧智能已成为一种趋势,语音 AI 芯片也随之切入端侧市场。国内主要语音技术公司凭借自身在语音识别、自然语言处理、语音交互设计等技术上的积累,开始转型做 AI 语音芯片集成及提供语音交互解决方案,包括云知声、出门问问、思必驰以及 Rokid。
市场上主流的 AI 语音芯片,一般都内置了为语音识别而优化的深度神经网络加速方案,以实现语音离线识别。随着算法的精进,部分企业的语音识别能力得到了较快提升,尤其是在远场识别、语音分析和语义理解等方面都取得了重要进展。云知声在 2018 年 5 月,推出语音 AI 芯片雨燕,并在研发多模态芯片,以适应物联网场景,目前公司芯片产品已经广泛用于智能家电如空调之中;出门问问也在 2018 年推出了 AI 语音芯片模组“问芯”MobvoiA1;Rokid 也发在 2018 年发布了 AI 语音芯片 KAMINO18;思必驰利用其声纹识别等技术优势,2019 年初推出基于双 DSP 架构的语音处理专用芯片 TH1520,具有完整语音交互功能,能实现语音处理、语音识别、语音播报等功能。
由于语音芯片市场过于细碎,需要企业根据场景和商业模式需要设计出芯片产品,这对传统的通用芯片企业的商业模式是一种颠覆,以致于在 2018 年以前都很少有芯片巨头进入该领域,这也给了国内语音芯片企业较大的施展空间。而对算法公司来说,通过进入芯片市场,进而通过解决方案直接面向客户和应用场景,通过实战数据来训练和优化算法。
6、机器人
机器人是人工智能行业最早的落地形态,也是现在和将来重要的应用方向。机器人主要包括两类——制造环境下的工业机器人和非制造环境下的服务机器人。工业机器人主要是面向工业领域的多关节机械手或多自由度机器人。服务机器人则是除工业机器人之外的、用于非制造业并服务于人类的各种先进机器人。
随着云物移大智等信息及智能化技术的发展,机器人在某些领域的工作效率高于人类,并在工业和服务场景中得到了大量应用。据国际机器人联盟统计,2017 年,全球工业机器人产量达到 38.1 万台,同比增长 30%,预计 2018-2021 年全球工业机器人产量将保持 10%以上增速增长,2021 年产量预计将达到 63.0 万台。中国是全球最大的工业机器人生产国,2017 年产量达到 13.79 万台,同比大幅增长 60%。服务机器人主要用于物流、防务、公共服务、医疗等领域,虽然规模不大,但是增长迅速。2017 年全球产量为 10.95 万台,同比大幅增长 85%。预计 2018 年全球专业服务机器人产量将达到 16.53 万台,同比增长 32%,2019-2021 年平均增速将保持在 21%左右。
机器人尤其是国内产业规模的快速扩大,将大幅带动国内机器人相关智能芯片产业的发展。机器人由控制、传感、驱动和电源四大装置构成,其中控制装置是机器人的“大脑”,核心是 AI 芯片。机器人芯片需要具备强大的数据计算、自主判断思考和执行能力,国外厂商如高通、英特尔、英伟达都在积极部署该领域,国内企业目前处于追赶状态,相关企业包括瑞芯微、珠海全志、炬力等。
三、AI芯片行业产业链及商业模式
半导体行业产业链长,具有资本和技术壁垒双高的行业特点
半导体行业产业链从上游到下游大体可分为:设计软件(EDA)、设备、材料(晶圆及耗材)、IC设计、代工、封装等。
Fabless与IDM厂商负责芯片设计工作,其中IDM厂商是指集成了设计、制造、封装、销售等全流程的厂商,一般是一些科技巨头公司,Fabless厂商相比IDM规模更小,一般只负责芯片设计工作。
分工模式(Fabless-Foundry)的出现主要是由于芯片制程工艺的不断发展,工艺研发费用及产线投资升级费用大幅上升导致一般芯片厂商难以覆盖成本,而 Foundry厂商则是统一对Fabless和IDM的委外订单进行流片,形成规模化生产优势,保证盈利的同时不断投资研发新的制程工艺,是摩尔定律的主要推动者。当前在半导体产业链中,我国在上游软件、设备、高端原材料以及代工制造与全球一线厂商差距较大,而在封装环节拥有长电、华天、通富微等行业前十企业,今年来在IC设计领域也逐渐涌现了以海思为代表的一批优秀企业。
半导体行业商业模式主要可分为:IP授权与流片生产模式
行业主要存在两种商业模式IP授权和流片模式。其中在IP授权模式中,IP设计公司将自己设计的芯片功能单元,如:CPU、GPU、DSP、NPU等,授权给其他的IC设计公司,如华为海思麒麟970、980芯片获得了寒武纪NPU的IP授权。被授权方将会向授权方支付一笔授权费来获得IP,并在最终芯片产品销售中,以芯片最终售价的1%~3%向授权方支付版税。授权费用实现IP开发成本的覆盖,而版税作为IP设计公司的盈利。但正如手机芯片市场,优质的IP资源往往集中在科技巨头手中,拥有单一或少量IP的创业公司往往因为自身IP竞争力不足、或是难以提供具有综合竞争力的完整解决方案而最终落得被收购或退出市场的境地。
流片生产模式虽然前期投入较大,但一款成功的产品将会使公司获得丰厚的利润,一般芯片产品定价采取8:20原则,即硬件成本:最终产品售价=8:20。该比率可能会随厂商对市场话语权不同而上下波动,因此一款成功的芯片销售毛利应在60%以上。但公司是否能够最终实现盈利,还需要在毛利中进一步扣除前期研发费用。
芯片设计需要厂商承担昂贵的EDA费用及高昂的人力成本
芯片整体设计制造流程大体包括:1)IC设计公司进行芯片架构设计,2)将设计完成的芯片“图纸”文件交由Foundry厂商进行流片,3)裸片将会交由OSAT厂商进行封装,4)产品销售。研发费用主要包括:研发团队人力成本、EDA软件及IP授权费用及其他场地租金、水电费用等。
其中,人力成本占研发成本主要部分,项目开发效率与资深工程师数量正相关,国内资深芯片设计工程师年薪一般在50~100万元之间。EDA工具是芯片设计工具,是发展超大型集成电路的基石,EDA工具可有效提升产品良率。目前,该领域被海外厂商高度垄断,CR3大于70%。EDA厂商主要是通过向IC设计公司进行软件授权获取盈利,根据调研,20人的研发团队设计一款芯片所需要的EDA工具采购费用在100万美元/年左右(包括EDA和LPDDR等IP购买成本)。英伟达开发Xavier,动用了2000个工程师,开发费用共计20以美金,Xlinix ACAP动用了1500个工程师,开发费用总共10亿美金。
芯片设计技术积累 市场洞察力=芯片产品市场推广成功与否
在IP授权和流片生产两大类商业模式中,IP授权由于不涉及芯片制造,仅需要考虑研发费用,资金占用相对小、风险较低。流片除前期的研发投入以外,还需要向代工厂支付巨额的代工费用,对资金占用极大,需要芯片销售达到一定量级才能分摊掉前期巨额投入实现盈利,若期间出现流片失败(即流片未达设计期望性能指标)或者市场推广失利等情况,芯片设计厂商需要承担前期巨额的研发和制造投入、费用损失。芯片单位硬件成本主要包含掩膜、封装、测试和晶圆成本,并受到制程工艺、产量、芯片面积等多因素的影响。
我们简要测算16nm制程工艺下,不同产量不同面积的芯片单位成本,可以看出芯片单位硬件成本随芯片面积、产量上升逐渐下降。因此,一款芯片能否获得广大的市场认可,并拥有较长的产品生命周期,实现芯片产品的规模销售和生产显著决定了企业的盈亏情况。
四、国内外AI芯片企业融资概况
从2012年开始,英伟达将其GPU产品应用于AI并行运算应用中,人们意识到了AI芯片的巨大潜力,传统半导体行业巨头、科技巨头和众多创业团队纷纷加入到该领域的产品研发中来。国内创业公司多成立于15年以后,从2017年开始大量的AI计算芯片产品陆续发布,产品逐步开始实现落地。
传统的半导体巨头和科技巨头也在布局AI芯片领域,除自主研发以外,基于资金优势通过对外投资收购优质资产及创业团队等手段加速自身的AI芯片业务发展,典型代表如Intel,大手笔收购了包括Altera、Nervana、Movidius以及Mobileye在内的多家AI芯片企业,阿里巴巴也通过先后投资、收购布局AI芯片的开发。
国内大量的AI芯片创业公司都是在2015-2017年成立,2018年新增企业数量减少。资本方面,受到宏观经济影响虽然行业内投融资事件相比2017年同比增长了32%,但行业整体投融资金额骤减,但头部企业在2018年依然持续获得投资人青睐,多家企业创造了估值新高。
五、国内外 AI 芯片厂商概览
1、整体排名
近年来,各类势力均在发力 AI 芯片,参与者包括传统芯片设计、IT 厂商、技术公司、互联网以及初创企业等,产品覆盖了 CPU、GPU、FPGA 、ASIC 等。在市场调研机构 Compass Intelligence 2018年发布的 AI Chipset Index TOP24 榜单中,前十依然是欧美韩日企业,国内芯片企业如华为海思、联发科、Imagination(2017 年被中国资本收购)、寒武纪、地平线机器人等企业进入该榜单,其中华为海思排 12 位,寒武纪排 23 位,地平线机器人排 24 位。
2、芯片企业
芯片设计企业依然是当前 AI 芯片市场的主要力量,包括英伟达、英特尔、AMD、高通、三星、恩智浦、博通、华为海思、联发科、Marvell(美满)、赛灵思等,另外,还包括不直接参与芯片设计,只做芯片 IP 授权的 ARM 公司。其中,英伟达、英特尔竞争力最为强劲。
英伟达:AI 芯片市场的领导者,计算加速平台广泛用于数据中心、自动驾驶等场景
英伟达创立于 1993 年,最初的主业为显卡和主板芯片组。其主板芯片组主要客户以前是 AMD,但是在 AMD 收购 ATI 推出自研芯片组之后,英伟达在该领域的优势就荡然无存。于是,公司全面转向到 GPU 技术研发,同时进入人工智能领域。2012 年,公司神经网络技术在其 GPU 产品的支持下取得重大进展,并在计算机视觉、语音识别、自然语言处理等方面得到广泛应用。
2016 年,全球人工智能发展加速,英伟达迅速推出了第一个专为深度学习优化的 Pascal GPU。2017年,英伟达又推出了性能相比 Pascal 提升 5 倍的新 GPU 架构 Volta,同时推出神经网络推理加速器TensorRT 3。至此,英伟达完成了算力、AI 构建平台的部署,也理所当然成为这一波人工智能热潮的最大受益者和领导者。公司的战略方向包括人工智能和自动驾驶。
人工智能方面,英伟达面向人工智能的产品有两类,Tesla 系列 GPU 芯片以及 DGX 训练服务器。
Tesla 系列是专门针对 AI 深度学习算法加速设计 GPU 芯片,DGX 则主要是面向 AI 研究开发人员设计的工作站或者超算系统。2018 年,公司包含这两款产品的数据中心业务收入大幅增长 52%,其中Tesla V100 的强劲销售是其收入的主要来源。
自动驾驶方面。英伟达针对自动驾驶等场景,推出了 Tegra 处理器,并提供了自动驾驶相关的工具包。2018 年,基于 Tegra 处理器,英伟达推出了 NVIDIA DRIVE AutoPilot Level 2 ,并赢得了丰田、戴姆勒等车企的自动驾驶订单。同时,2018 年,公司也正在积极推动 Xavier 自动驾驶芯片的量产。
值得关注的是,英伟达还正在通过投资和并购方式继续加强在超算或者数据中心方面的业务能力。
2019 年 3 月,英伟达宣称将斥资 69 亿美元收购 Mellanox。Mellanox 是超算互联技术的早期研发和参与者。通过与 Mellanox 的结合,英伟达将具备优化数据中心网络负载能力的能力,其 GPU 加速解决方案在超算或者数据中心领域的竞争力也将得到显著提升。
英特尔加速向数字公司转型,通过并购 生态优势发力人工智能
英特尔作为传统的 CPU 设计制造企业,在传统 PC、服务器市场有着绝对的统治力。随着互联网时代的到来以及个人电脑市场的饱和,公司也在开始加快向数字公司转型。尤其在人工智能兴起之后,英特尔凭借着技术和生态优势,打造算力平台,形成全栈式解决方案。
英特尔主要产品为 CPU、FPGA 以及相关的芯片模组。虽然 CPU 产品在训练端的应用效率不及英伟达,但推理端优势较为明显。英特尔认为,未来 AI 工作周期中,推理的时长将是训练时长的 5 倍甚至 10 倍,推理端的芯片需求也会放量。同时,即使是云端训练,GPU 也需要同 CPU 进行异构。
目前,英特尔在人工智能芯片领域主要通过三条路径:1)通过并购快速积累人工智能芯片相关的技术和人才,并迅速完成整合。英特尔在收购了 Altera 后,还先后收购了 Nervana、Movidius 与 Mobileye等初创企业。在完成上述一系列并购之后,英特尔设立了 AI 事业群,整合了 Xeon、Xeon Phi、Nervana、Altera、Movidius 等业务和产品,同时将原有的自动驾驶业务板块并入 Mobileye。2)建立多元的产品线。目前,英特尔正建构满足高性能、低功耗、低延迟等差异化芯片解决方案,除了 Xeon 外,包括可支持云端服务 Azure 的 Movidius VPU 与 FPGA。3)通过计算平台等产品,提供强大的整合能力,优化 AI 计算系统的负载,提供整体解决方案。
在英特尔收购的这些企业中,除了前面已经提到的 Altera、Mobileye 之外,Nervana 也非常值得关注。2016 年 8 月,英特尔斥资超过 3.5 亿美元收购这家员工人数不超过 50 人的创业公司,但是经过不到三年的成长,这家公司已经成为英特尔 AI 事业部的主体。依托 Nervana,英特尔成功在 2017年 10 月推出了专门针对机器学习的神经网络系列芯片,目前该芯片已经升级至第二代,预计 2019年下半年将正式量产上市,该芯片在云端上预计能和英伟达的 GPU 产品一较高下。
3、IT 及互联网企业
AI 兴起之后,互联网及 IT 企业凭借着在各大应用场景上技术和生态积累,也在积极拓展 AI 相关市场,其中 AI 芯片是部署重点之一。相较而言,互联网企业凭借着数据和场景先天优势,在 AI 算法和芯片领域优势更为明显,如美国谷歌、国内的 BAT。IT 企业如 IBM,在人工智能领域较早开始研究,2018 年年中曾经推出专门针对深度学习算法的原型芯片。
谷歌:TPU 芯片已经实现从云到端,物联网 TPU Edge 是当前布局重点
谷歌可谓是 AI 芯片行业的一匹黑马,但是竞争力强劲。谷歌拥有大规模的数据中心,起初同其他厂商的数据中心一样,都采用 CPU GPU 等异构架构进行计算加速,用来完成图像识别、语音搜索等计算服务。但是,随着业务量的快速增长,传统的异构模式也很难支撑庞大的算力需求,需要探索新的高效计算架构。同时,谷歌也需要通过研发芯片来拓展 AI 平台 TensorFlow 的生态。因此,2016年,Google 正式发布了 TPU 芯片。
从谷歌 TPU 的本质来看,它是一款 ASIC(定制芯片),针对 TensorFlow 进行了特殊优化,因此该产品在其他平台上无法使用。第一代 Cloud TPU 仅用于自家云端机房,且已对多种 Google 官方云端服务带来加速效果,例如 Google 街景图服务的文字处理、Google 相簿的照片分析、甚至 Google搜寻引擎服务等。Cloud TPU 也在快速改版,2017 年推出第二代,2018 年推出第三代芯片 TPU 3.0。
同时,谷歌对 TPU 的态度也更为开放,之前主要是自用,目前也在对用户开放租赁业务,但没有提供给系统商。
除了云端,谷歌针对边缘端推理需求快速增长的趋势,也在开发边缘 TPU 芯片。2017 年 11 月,Google 推出轻量版的 TensorFlow Lite(某种程度取代此前的 TensorFlow Mobile),使得能耗有限的移动设备也能支持TensorFlow,2018年推出的Edge TPU芯片即是以执行TensorFlow Lite为主,而非 TensorFlow。Edge TPU 性能虽然远不如 TPU,但功耗及体积大幅缩小,适合物联网设备采用。
Edge TPU 可以自己运行计算,不需要与多台强大计算机相连,可在传感器或网关设备中与标准芯片或微控制器共同处理 AI 工作。
按照谷歌的规划,Edge TPU 将提供给系统商,开放程度将进一步提升。如果 Edge TPU 推广顺利,支持的系统伙伴将进一步增多,谷歌将尽快推出下一代 Edge TPU 产品。即使推广不顺利,Google也可能自行推出 Edge 网关、Edge 设备等产品。
阿里巴巴:推出自研神经网络处理芯片,同时加速对 AI 企业投资布局
阿里巴巴作为国内 AI 领域的领军企业,在底层算力、算法技术以及应用平台方面都有较强积累。同Google 类似原因,阿里巴巴也在近年来开始开发 AI 芯片,同时加大对相关领域的投资布局。
2017 年,阿里巴巴成立阿里达摩院,研究领域之一就是 AI 芯片技术。2018 年 4 月,阿里达摩院对外宣布正研发一款 Ali-NPU 神经网络芯片,预计将在 2019 年下半年问世。这款芯片将主要应用于图像视频分析、机器学习等 AI 推理计算。
阿里巴巴在自研 AI 芯片之前,主要在通过投资的方式布局 AI 芯片领域。目前,寒武纪、深鉴科技、杭州中天微等都有阿里巴巴的入股,其中 2016 年 1 月份还成为了 AI 芯片设计企业杭州中天微的第一大股东。
百度:通过自研、合作以及投资等多种方式布局 AI 芯片
百度作为搜索企业,其对 AI 芯片的需求更为明确。早在 2011 年,百度就在 FPGA 和 GPU 进行了大规模部署,也开始在 FPGA 的基础上研发 AI 加速器来满足深度学习运算的需要。此后,百度就不断通过合作、投资和自研的方式来推进该业务。
1)加强同芯片设计及 IP 企业合作。2017 年 3 月,百度发布了 DuerOS 智慧芯片,并与紫光展锐、ARM、上海汉枫达成战略合作。这款芯片搭载了对话式人工智能操作系统,可以赋予设备可对话的能力,能广泛用于智能玩具、蓝牙音箱、智能家居等多种设备。2017 年 8 月,百度又与赛思灵(Xilinx)发布了 XPU,这是一款 256 核、基于 FPGA 的云计算加速芯片。同在 2017 年,百度同华为达成合作,推动终端 AI 芯片的落地。
2)参与 AI 芯片企业投资。2018 年 2 月 5 日,美国初创公司 Lightelligence 宣布获得了 1000 万美元种子轮融资,由百度风投和美国半导体高管财团领投。Lightelligence主要利用基于光学的新技术,来加速人工智能的工作负载,通过光子电路的新兴技术来加速信息处理。
3)自研芯片也正在加速部署。2018 年 7 月,百度正式发布了自研的 AI 芯片“昆仑”,这是当时国内第一款云端全功能 AI 芯片,其中包含训练芯片昆仑 818-300,推理芯片昆仑 818-100。昆仑 AI 芯片是基于百度 CPU、GPU、FPGA 的 AI 加速器研发,能够在 100W 左右的功耗下,提供高达 260 万亿次/秒的运算速度,算力处于业界领先水平。
4、创业企业
寒武纪:同时发力终端和云端芯片,技术综合实力较强
寒武纪发源于中科院,是目前全球领先的智能芯片公司,由陈天石、陈云霁兄弟联合创办,团队成员主要人员构成也来自于中科院,其中还有部分参与龙芯项目的成员。2018 年 6 月公司,公司获得数亿美元投资,此轮融资之后,寒武纪科技估值从上年的 10 亿美金大幅上升至 25 亿美元。公司是目前国内为数不多的同时具备云端和终端 AI 芯片设计能力的企业。
公司最早发力的是终端芯片,主要为 1A 系列,包括 1A、1H8 和 1H16,公司通过 IP 授权的模式赋能终端或者芯片设计企业,目前主要合作伙伴包括华为,其中麒麟 970 就采用其 1A 处理器。另外,公司还推出了面向低功耗场景视觉应用的寒武纪 1H8,高性能且拥有广泛通用性的寒武纪 1H16,以及用于终端人工智能产品的寒武纪 1M。2018 年 9 月,华为发布的麒麟 980 依然集成了优化版的寒武纪 1H 新一代智能处理器。
公司云端芯片也取得较大突破。云端芯片一直是英特尔、英伟达等公司的领地,国内企业很难进入。2018 年 5 月,寒武纪推出算力达到 128Tops 的 MLU 100 云端智能芯片,可用于训练和推理。MLU100相比传统的 GPU 和 CPU 芯片,MLU 芯片拥有显著的性能功耗比和性能价格比优势,适用范围覆盖了图像识别、安防监控、智能驾驶等多个重点应用领域。
2019年6月20日,寒武纪正式推出了第二代云端AI芯片——思元270(MLU270)及板卡产品。思元270采用的是寒武纪自主研发的MLUv02指令集,可支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用,更为视觉应用集成了充裕的视频和图像编解码硬件单元。具体性能指标方面,思元270芯片处理非稀疏深度学习模型的理论峰值性能提升至上一代MLU100的4倍,达到了128TOPS(INT8);同时在定点训练领域取得关键性突破,兼容INT4和INT16运算,理论峰值分别达到256TOPS和64TOPS;支持浮点运算和混合精度运算。
综合来看,公司在 AI 芯片方面竞争力较强。公司拥有自己的处理器架构和指令集,而且通过硬件神经元虚拟化、开发通用指令集、运用稀疏化处理器架构解决了 ASIC 用于深度学习时存在的云端算力的挑战、能效瓶颈、手机端和云端超大规模计算场景应用问题。
地平线机器人:公司AI芯片和计算平台在嵌入式及智能驾驶领域具备优势
地平线成立于 2015 年,主要从事边缘人工智能芯片和计算平台业务,场景聚焦于智能驾驶和 AIoT边缘计算。2018 年起,公司逐渐实现产品化落地。2019 年 2 月,公司官方宣布已获得 6 亿美元 B轮融资,SK 中国、SK Hynix 以及数家中国一线汽车集团(与旗下基金)联合领投。B 轮融资后,地平线估值达 30 亿美元。
2017 年 12 月,地平线发布中国首款全球领先的嵌入式人工智能视觉芯片征程(Journey)系列和旭日(Sunrise)系列。旭日 1.0 处理器面向智能摄像头等应用场景,具备在前端实现大规模人脸检测跟踪、视频结构化的处理能力,可广泛用于智慧城市、智慧零售等场景。征程 1.0 处理器面向智能驾驶,具备同时对行人、机动车、非机动车、车道线、交通标志牌、红绿灯等多类目标进行精准的实时检测与识别的处理能力,同时满足车载严苛的环境要求以及不同环境下的视觉感知需求,可用于高性能 L2 级别的高级驾驶辅助系统 ADAS 。
2018 年 2 月,地平线自主研发的高清智能人脸识别网络摄像机,搭载地平线旭日人工智能芯片,提供基于深度学习算法的人脸抓拍、特征抽取、人脸特征值比对等功能。可以在摄像机端实现人脸库最大规模为 5 万的高性能人脸识别功能,适用于智慧城市、智慧零售等多种行业。
2018 年 4 月,公司发布地平线 Matrix1.0 自动驾驶计算平台。目前已经更新到性能更强的升级版本,地平线 Matrix 自动驾驶计算平台结合深度学习感知技术,具备强大的感知计算能力,能够为 L3 和 L4 级别自动驾驶提供高性能的感知系统。地平线 Matrix 自动驾驶计算平台已向世界顶级Robotaxi 厂商大规模供货,成功开创了中国自动驾驶芯片产品出海和商业化的先河。
比特大陆:区块链矿机霸主进军AI领域
比特大陆是全球领先的算力芯片设计企业,其致力于开发高性能、低功耗、全定制的算力芯片,是全球少数几家掌握最先进7nm制程设计能力并可规模量产7nm芯片的公司之一。
目前,比特大陆的产品主要应用于区块链和人工智能两个领域,区块链矿机的市场份额高达74.5%。2017年,比特大陆正式发布了面向人工智能领域的子品牌——“算丰”,并推出了针对深度学习推理的第一代云端AI芯片BM1680。2018年3月,比特大陆快速推出了第二代云端人工智能芯片BM1682,2018年9月份推出了面向终端的AI芯片产品BM1880,并计划于2019年推出其第三代云端AI芯片BM1684。
此外,比特大陆基于其芯片,在云端还研发了加速卡、服务器等产品,在终端推出了计算棒、模组、开发板等产品,为不同行业的客户提供适应多种应用场景的产品。
在项目落地方面,比特大陆基于云端AI芯片的人脸闸机助力福建618展会与厦门98投洽会成功举办,累计通行超过30万人次,通道表现稳定可靠,状况良好。在第二届数字中国峰会安保系统中,搭载比特大陆自研芯片的算丰人工智能服务器与海康威视人脸识别算法相融合,全程应用于峰会安全保障工作,3D人脸轨迹系统为日均6万余人次、累计150余万张人脸图片的海量分析提供算力支持。
在合作方面,比特大陆与福建当地企业合资成立福建省算域大数据科技有限公司,负责福州城市大脑的投资、建设与运营,为日后福州AI产业发展建设好基础设施。比特大陆还作为首批企业加入海淀城市大脑科技产业联盟,助力海淀“城市大脑”建设,后还与海淀区签署了围绕“智能处理芯片应用场景建设”的重大项目合作意向书,推动算力芯片应用落地。此外,公司还与东亚最大的游戏云平台优必达( Ubitus )合作,共同建设公司位于日本、台湾的机房,基于“算丰”芯片,公司协助Ubitus共同开发计算机视觉相关的AI功能。
嘉楠科技:转型AI芯片厂商
作为仅次于比特大陆的全球第二大比特币矿机厂商,近几年以来,嘉楠科技也开始积极转型AI芯片厂商,目前已掌握集AI芯片研发、AI算法、结构、SoC集成及流程实现一体化等综合技术,以AI芯片为核心建立AI生态链,以生态伙伴需求为依归,为生态伙伴提供一揽子AI服务方案。
嘉楠科技于2013年发布了全球首款基于ASIC芯片的区块链计算设备,引领行业进入ASIC时代。2015年,嘉楠科技获清华长三角研究院投资,并作为重点项目被引进至科技重镇杭州。同年,嘉楠科技成功实现28nm制程工艺芯片的量产,迈出了AI芯片量产的第一步。
嘉楠科技在2016年实现了16nm芯片量产,一举通过国家高新技术企业认定。并于2017年被正式评定为杭州市高科技独角兽企业。2018年,嘉楠科技连获两项全球重大技术突破,实现量产全球首个基于自研的7nm芯片,以及量产全球首款基于RISC-V 自研商用边缘智能计算芯片。
2018年9月,嘉楠科技推出了第一代边缘侧AI芯片勘智K210,通过完全自主研发的神经网络加速器IP,同时具备机器视觉和语音识别能力,可以在超低功耗下进行高速卷积神经网络计算。随后勘智K210很快在无感门禁、智能门锁、病虫害防治等领域得到应用。
在项目落地方面,嘉楠科技提供的无感门禁系统已经得到了软通动力总部大楼(共有集团员工5万人)的采用,目前已实现每个监控点日均2000次的识别数量。嘉楠科技提供的智能电表解决方案也被亚洲最大的社区——贵阳南明花果园社区采用,实现了对社区10万多个传统电气表的智能化升级改造,解决传统人工入户抄表模式的“高成本、低效率、难入户”等问题。在治理林业病虫害的业务场景中,嘉楠与百度、林业大学合作,将搭载8通道高性能麦克风阵列的音频处理硬件插入树中,以虫子嗑咬树植的声音为音源,判断害虫的位置。同时,还可利用K210芯片的视觉能力,将芯片置入40mm见方的智能盒子,通过图像分类和检测的方法判断视野内是否有害虫存在。这种视听综合判断的方法有效提升了判断的效率与精度,在林业、农田都有广泛的应用场景。同时,该智能盒子不需要外接供电设备,只需要电池供电即可,相比传统的设备更为轻量化,使用成本更低廉。
在生态合作方面,2019年5月29日,嘉楠联合百度大脑发布PaddlePi-K210。该产品作为一款AI开发板,尺寸仅为3 X3cm,相当于一个火柴盒大小,具有1Tops的澎湃算力,同时兼具300mw的极低功耗,即使加上摄像头和屏幕也只有1w的功耗,充分适配边缘侧设备对于极低功耗的业务场景需求。同时,该产品打通PaddlePaddle模型设备端部署解决方案。开发者不需要硬件更改,使用公版模具就可以一直支持用户做到产品小样阶段,对开发者十分友好。2018年9月21日,嘉楠科技还与天津市西青区人工智能产业基地签约AI项目。此次人工智能产业集中签约重点项目有平台类、芯片设计、软件研发类、应用类。涉及智能网联车、智慧医疗、智慧城市、智能制造多个人工智能领域。
编辑:芯智讯-浪客剑
综合自:平安证券、艾瑞咨询等机构研报及相关网络资料