毫无疑问,在目前的AI市场,Nvidia(英伟达)可谓是“春风得意马蹄疾”。凭借性能强大的GPU计算卡,英伟达在目前的AI硬件市场占据着绝对龙头的地位。去年,英伟达的股价更是上涨了三倍多,足见市场对于英伟达的看好。但是在这一片繁荣的背后,英伟达的盛世危机也或将来临。
英伟达的“显卡盛世”
1993年4月,从集成电路生产商LSI Logic出来的黄仁勋,联合Sun公司两位年轻工程师——Chris Malachowsky和CurTIs Priem 共同创立了英伟达,他们的初衷是研发一种专用芯片,用来加快电子游戏中3D图像的渲染速度,带来更逼真的显示效果。
最初几年,由于技术上的优势,英伟达发展颇为迅速。
1999年1月,英伟达全年营收就突破了1.5亿美元,并在纳斯达克挂牌上市。同年5月,其图形处理器销量超过1000万。8月,英伟达推出第一款以GeForce命名的显示核心——GeForce 256,并首次提出GPU概念。2000年年底,英伟达以7000万美元现金、100万股公司股票,将3Dfx收入囊中,正式成为行业老大。
此时的GPU市场,只剩一家竞争对手可与英伟达匹敌,那就是ATI。
然而,在经过多年的双强并立期之后,英伟达开始盛极转衰。
2000年,为了进军游戏主机行业,微软找到了如日中天的英伟达,请他们研发Xbox图形芯片、SoundStorm声音芯片以及主板解决方案。这本是英伟达一个再次发展的绝好机会,但事与愿违。
在合作过程中,双方因交付价格问题产生矛盾,二者甚至闹到了启动法律仲裁的程度。最终,微软把订单交给了英伟达的竞争对手ATI。
这次合作的失败让英伟达遭受了沉重的打击,不仅2003年营收减少,还错过了微软DirectX 9规格确立的重要消息,直接导致当年推出的GeForce FX由于兼容性问题败给ATI的Radeon 9700。
在与微软合作失败的同时,英特尔也开始扶持ATI。
面对如此严峻的局面,英伟达开始寻求走出困境之道。主动与微软和解,争取再次合作;同时和英特尔达成了专利交叉许可协议。
此后几年,英伟达的锋芒有所收敛,发展也比较平稳,公司的业绩也稳步增长。
不料,天有不测风云。2008年,英伟达遭遇了公司成立以来最大的挑战。
在这一年,CPU巨头AMD收购英伟达老对手ATI,形成了CPU整合GPU的新解决方案。屋漏偏逢连夜雨,与此同时,Intel也终止了与英伟达的合作,在其芯片组中集成了3D图形加速器。
无奈之下,英伟达只得走高性能独立显卡一条路,但却遭遇质量问题。这一年,英伟达股票暴跌,从37美元跌到6美元左右,营收大跌16%。
之后两年,英伟达在市场上进入蛰伏期,表现不温不火,却也平稳。随着智能手机市场以及平板电脑市场火爆,英伟达也开始进军移动市场,迎来了又一个“盛世”。
英伟达的“移动盛世”
在从单核心到双核心安卓智能手机的过渡中,2010年英伟达率先发布了Tegra 2双核(Cortex-A9)芯片,主攻智能手机市场,并且获得摩托罗拉的选用。而当时的高通还主要是一家提供基带的厂商,联发科也还没进入智能手机市场,对于英伟达来说,整个移动领域市场机会非常巨大。
2011年11月英伟达又推出了全球首款移动四核心处理器Tegra 3,这款芯片也获得了众多智能手机厂商和平板电脑厂商的采用。比如HTC One X,微软的第一代Surface RT平板电脑等。
为了加码智能手机市场,2011年,英伟达还斥资3.67亿美元(约合人民币22.44亿元)收购Icera的调制解调器业务。
2013年1月的CES展上,英伟达推出了新一代智能手机芯片Tegra 4,仍为四核芯片,但是采用了“4+1”的设计,即具备四颗主核芯和一颗省电核芯。这款芯片随后也被小米3,微软的Surface 2所采用。
随后英伟达开始将Tegra芯片业务延伸到了汽车领域,特斯拉Model S电动车的车载娱乐系统也是基于Tegra 3设计。此次业务延伸可谓相当成功。
根据英伟达公布2013年财年的业绩报告显示,Tegra业务年收入高达7.64亿美元,营业利润近4000万。不过,那已经是Tegra芯片业务的高峰期了。
而英伟达在移动市场转向衰落的开始,似乎正式始于Tegra 4i芯片的推出。
2013年2月19日,英伟达发布了Tegra 4i芯片,作为Tegra 4系列的一员,首次整合了英伟达的i500 LTE调制解压器。但是这款芯片推出之后却遭遇了市场冷遇,没有获得客户采用。与此同时,高通、联发科等竞争对手的整合基带的处理器不断的在智能手机市场攻城略地。此后,英伟达便开始逐渐淡出移动市场。
虽然,之后英伟达有推出Tegra K1和Tegra X1两款性能不错的芯片,Tegra X1也有被谷歌的Pixel C平板所采用,但是此时英伟达的主要目标市场似乎已经不是移动设备了,而是转向游戏和汽车领域。
2014年5 月,英伟达CEO黄仁勋在接受媒体采访时宣布,英伟达已经决定撤离智能手机市场。2015年,英伟达宣布停止推出新款LTE调制解调器。至此,英伟达正式退出了移动市场。
虽然此后英伟达开始全身心专注于汽车领域,包括专业定制两种不同的Tegra车载平台Drive CX和Drive PX,前者主攻车载娱乐显示屏,后者是先进的辅助驾驶功能。当时,在道路上跑的汽车有超过800万辆搭载Tegra芯片,还有25万在流水线生产中,但实际上是Tegra芯片业务量相比一年前的更少了,甚至是无利可图。
对于退出移动市场的原因,英伟达认为是高通把自己逼走的。为此,2016年英伟达还将高通告上了法庭。英伟达在法庭文件中指出,是高通“非法滥用其垄断地位”,导致自己“客户订单出现莫名其妙的延迟,市场需求大减,很多与客户的合同也无法按时签署,即便是有客户表达了强烈的购买意愿也无法成行”。
英伟达的“AI盛世”
其实早在2012年,英伟达就已经开始布局人工智能。这一年,多伦多大学Alex Krizhevsky创建了能够从100万样本中自动学习识别图像的深度神经网络。仅在两块NVIDIA GTX 580 GPU上训练几天,“AlexNet”就赢得了当年的ImageNet竞赛,击败了磨练几十年的所有人类专家算法。同年,认识到网络规模越大、或者大脑越大,其学习能力就越强的规律之后,斯坦福的Andrew Ng与英伟达研究室合作开发了一种使用大规模GPU计算系统训练网络的方法。
2015年英伟达在CES前夕发布了面向汽车自动驾驶的Drive PX专用计算平台(基于2颗Tegra X1处理器),并被不少汽车厂商所采用。
2016年初,随着AlphaGo大败围棋世界冠军李世石,人工智能概念大热,各类人工智能产品也迎来了爆发。众多的科技巨头也纷纷在人工智能领域投下了重注。而人工智能之所以能够爆发,也离不开硬件的发展,特别是GPU技术的进步。相对于CPU来说,GPU在并行计算上更快、更便宜、更有效,更适合于人工智能在深度学习方面的训练。
显然,这对于全球显示领域的巨头英伟达来说确实是一个巨大的机遇。因此,此前在移动市场遭遇挫折的英伟达也开始全面转向人工智能领域。英伟达凭借其积累的GPU技术优势,也迅速占据了人工智能市场的优势。
在2016年CES上,英伟达又推出了Drive PX 2车载电脑,号称自动驾驶汽车中全球首款智能超级电脑。这块产品随后也被众多的汽车厂商所采用。成为了提震股价的一大助力。
2016年9月底,Nvidia推出了一款专为无人驾驶汽车设计的新一代人工智能超级计算机平台——Xavier。可实现人机交互、深度学习、自动驾驶等功能。
今年CES上,全球汽车零部件巨头采埃孚宣布与英伟达合作,共同为自动驾驶的乘用车、商用车以及其他工业机器人应用开发了全新的人工智能系统——ProAI。与此同时,Nvidia推出了人工智能协同驾驶系统AI Co-Pilot。这套系统最大的亮点是,此前的自动驾驶技术多数是基于自适应巡航系统,依靠前期输入的地图和数据信息进行半自动驾驶;而这套系统,车辆可以通过摄像头实时采集信息,扫描周围道路街景、车辆、行人、路标等经由GPU(图形处理器)分析处理,可以说完全具备了自己学习能力。
今年的CES更是请Nvidia的黄仁勋作为开幕前夜最重头的专场演讲的嘉宾,而以往这都是被微软、英特尔等巨头包揽的。在开幕演讲当中,英伟达CEO黄仁勋也不止一次的提到“我们是一家人工智能公司”。
凭借着人工智能火爆的势头,去年英伟达的股价更是上涨了三倍,今年目前相比去年也已上涨了70%多。确实令人惊讶!
同时,Nvidia的营收也是一路上涨,根据Nvidia此前发布的截至今年4月30日的2018财年第一季度财报显示,Nvidia第一财季营收为19.37亿美元,较上年同期的13.05亿美元增长48%。净利润为5.07亿美元。
今年5月,英伟达在美国举办2017 GTC,又推出了新款GPU Tesla V100以及DGX-1超级电脑、HGX-1云服务器以及ISSAC机器人训练平台等众多新品。引起了业内的广泛关注。
今天,英伟达GTC China开发者大会在北京举行。与之前在美国的2017 GTC大会相比,英伟达在此次GTC China上并没有发布任何硬件产品。只推出了TensorRT 3人工智能推理软件。据介绍,TensorRT 3可与GPU硬件结合,可以大幅提升云端及终端设备的推理性能,并有效降低成本。
此外,黄仁勋介绍了其产品在中国市场的进展,阿里巴巴、百度、腾讯均已在其云端人工智能基础设施上部署了英伟达的Tesla V100 GPU,而华为、浪潮、联想也已经作为OEM厂商,开始生产基于HGX的GPU服务器。TensorRT 3目前已被阿里云、百度云、腾讯、科大讯飞和京东采用。
另外,阿里巴巴、海康威视、大华和华为则加入了英伟达Metropolis平台,并分别在路况监测、虚拟安保、交通流量监测等方面提供了基于该平台的人工智能视频解决方案。
黄仁勋在会上也意气风发的表示,“摩尔定律已经是旧时代的法则,GPU的计算速率和神经网络复杂性都在过去2-5年内呈现出爆发性增长,二者结合后,我们将看到来自医药、自动化交通、精密制造、乃至更多领域的惊人突破。”
而就在一周之前的“英特尔精尖制造日”活动上,英特尔还宣布摩尔定律继续有效,并且在未来十年内继续有效。黄仁勋此番言论自然也引发了业内的热议,被认为是在向英特尔挑衅。而黄仁勋的底气也证书来自于英伟达目前在人工智能市场的强势地位。
但是,在英伟达“AI盛世”的背后,也隐藏着不小的危机。
英伟达的第三次盛世危机?
人工智能的概念确实很热,目前有很多厂商采用原有的CPU、GPU,或者DSP来进行人工智能计算,但是相对而言,神经网络处理器更适合人工智能。
从技术角度看,包括深度学习在内的人工智能实际上是一类多层大规模人工神经网络。它模仿生物神经网络而构建,由若干人工神经元结点互联而成。神经元之间通过突触两两连接,突触记录了神经元间联系的权值强弱。每个神经元可抽象为一个激励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。为了表达特定的知识,使用者通常需要(通过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等。该过程称为“学习”。在学习之后,人工神经网络可通过习得的知识来解决特定的问题。
由于神经网络计算的类型和计算量与传统计算的区别,导致在进行神经网络计算的时候,相比传统CPU、DSP甚至GPU都有算力、性能、能效等方面的不足,所以激发了专为神经网络计算而设计处理器或加速器的需求。
在此前由芯智讯主办的《2017生物识别技术与应用高峰论坛》上,高通(中国)产品市场资深经理刘学徽先生就透露,虽然现在的手机芯片里的CPU、GPU、DSP都可以做人工智能运算,但是同样的一个算法在GPU上速度要比CPU快4倍,如果在DSP上则要比CPU快8倍。在能效方面,GPU运算要比CPU节省8倍,DSP则可节省25倍。
而如果运算在专门针对人工智能的神经网络处理器上,无疑将会更快。
9月21日,Imagination发布了一款针对移动市场的神经网络处理器PowerVR 2NX NNA,通过Imagination给出的数据对比我们可以看到。其上一代的PowerVR 7XTP GPU相比,PowerVR 2NX NNA的人工智能性能要高17倍左右,同时能耗要低约178倍。
显然,神经网络处理器在人工智能方面确实要比GPU要更有优势。而这也正是英伟达的未来的一个危机所在。
虽然,英伟达在最新的图形芯片架构中加入了专门的Tensor Cores计算核心。Tensor Cores针对利于深度学习操作的数学运算进行了优化,英伟达的GPU越来越像专业的AI处理器了,而不仅仅是用于生成图形的工具。但GPU终归还是GPU。
人工智能芯片创业公司Cerebras Systems的联合创始人兼CEO Andrew Feldman此前在接受采时也认为,“英伟达最大的问题在于,GPU是为生成图形而非处理AI算法所设计的。我不认为GPU很适合机器学习,它只是比英特尔的CPU更好而已。”
所以,我们也看到,目前众多的人工智能芯片公司都在积极研发基于神经网络的处理器。除了前面提到的Imagination之外,还谷歌、英特尔、IBM等厂商都在这个方向上深耕多时。
今年4月,谷歌资深硬件工程师Norman Jouppi就曾表示,谷歌的专用机器学习芯片TPU处理速度要比GPU和CPU快15-30倍(和TPU对比的是IntelHaswell CPU以及NVIDIA Tesla K80 GPU),而在能效上,TPU更是提升了30到80倍。此前打败柯洁的AlphaGo就是基于谷歌的TPU处理器。
当然,TPU只是一个推理芯片,它并不能取代GPU,但是可以确定的是,它比GPU更适合人工智能应用。
虽然英特尔在移动市场与英伟达一样也遭遇了失利,并且在GPU领域,英特尔也是落后于英伟达,所以在针对人工智能方面,英特尔此前也主要是依靠其CPU。不过,英特尔也在神经网络处理器方面投入了重注。
2016年8月,英特尔宣布将以3.5亿美元的价格收购了专门设计AI芯片的新创公司Nervan Systems。Nervana主攻的就是基于神经网络的深度学习方向。
随后,英特尔开始研发基于Nervana的AI平台和处理器。英特尔表示,和GPU解决方案相比,Nervana在未来三年将把训练一个深度学习模型的时间减少100倍。Nervana具体产品是代号为Lake Crest的AI处理器,在2017年上半年进行测试,预计将产生突破性的性能,并大幅减少训练复杂神经网络所需时间。
另外,就在今天黄仁勋嘲笑英特尔“摩尔定律已经是旧时代的法则”的同时,英特尔实验室今天正式公布了代号威“Loihi”的自学习神经元芯片,并称其可模仿大脑的功能,能从环境反馈中直接学习。
据介绍,“Loihi芯片由128个计算核心组成,每个核心有1024个人工神经元,整个芯片共有超过13万个神经元和1.3亿个突触连接。从神经元数量上看,人脑则由超过 800 亿个神经元构成,显然这个芯片距离模拟人类大脑的内部的复杂行为还很遥远。”但是,Loihi芯片的复杂度已经超过了龙虾的大脑,不得不说这也是一个巨大的进步。
英特尔称Loihi芯片通过神经元之间的脉冲/spike 来传输数据。可以适应 Go 语言并使用它学习。目前最前沿的机器学习系统依赖于需要大规模数据和大量算力的深度学习,而 Loihi芯片完全不需要那些紧张而集中的学习过程,并且可以自主学习(self-learning)。
英特尔声称,通过模拟神经元的刺激模式,该芯片比起传统的芯片设计,运行效率更高。“大脑并不像你所想的那样频繁沟通”,Intel 实验室的高级首席工程师和首席科学家 Narayan Srinivasa 在采访中说,“没有神经刺激的时候,芯片是不需要耗能的。”
英特尔并没有明确说明该芯片能有多高效运行,毕竟测试芯片还没有准备好。但英特尔模糊的宣称,该芯片的能耗只有通常用于训练人工智能系统芯片的千分之一。
据透露,Loihi芯片的第一代测试芯片预计11月推出,基于英特尔14nm工艺。计划2018年上半年面市。
此外,IBM Research也已经花了好几年时间研究一种类似的模拟神经元的神经形态芯片,即 TrueNorth。“TrueNorth 芯片包含 4096 个核以及 540 万个晶体管,只需要 70 毫瓦的能耗。该芯片模拟了一百万个神经元和 2 亿 5600 万个突触,比起英特尔的第一代 Loihi 测试芯片的规模可大多了。”据介绍,TrueNorth 大概能模拟一只蜜蜂的大脑。
除了面对来自人工智能芯片厂商的挑战之外,英伟达还将面临人工智能正在向终端侧转移的剧变。
在此前芯智讯的多篇文章当中,我们都有提到,相对于云端的人工智能来说,在智能终端侧部署人工智能在隐私保护、带宽需求、低延时、功耗以及体验等众多方面都更有优势。在智能终端侧部署人工智能已经是大势所趋。而目前智能手机正是这样一个需求最大的智能终端市场。而面对这样一个巨大的人工智能市场,英伟达目前似乎仍然只是一个旁观者,而这样的局面短时间内也难以改变。
另外在英伟达强势的自动驾驶市场,未来也将面临英特尔的强力挑战。今年3月,英特尔收购了在自动驾驶领域具有很大市场份额的Mobileye。
从英伟达过往的历史来看,之前的已经历了两次的“盛极而衰”,在今天的“AI盛世”之下,面对未来危机,英伟达能安然度过吗?
编辑:芯智讯-浪客剑
注:本文由芯智讯独家整理发布。文章第一部分“显卡盛世”内容部分源自网络,未找到源出处,故此说明。