为何YouTube、字节、快手们纷纷自研云端视频处理器?

为何YouTube、字节、快手们纷纷自研云端视频处理器?

近年来,随着抖音、快手等众多视频应用的火爆,以及用户对于高质量视频的需求的不断增长,云端服务器当中的CPU 和 GPU 已无法满足处理海量视频数据需求。对此,字节跳动早已开始自研云端视频处理器(VPU),快手也于今年8月曝光了自研的云端智能视频处理器SL200。而作为全球最大的视视频应用YouTube也早已开始自研云端智能视频处理器,并且目前已经演进到了第二代。

近日,外媒 protocol 报道了谷歌旗下YouTube自研云端视频处理器的相关细节。

大约七年前,谷歌工程副总裁Partha Ranganathan 就意识到摩尔定律开始失效,这也带来了一个相当大的问题:他此前期望芯片性能每 18 个月翻一番而不会增加成本,并帮助组织了谷歌每年在计算基础设施上花费的数百亿美元的采购计划。但 Ranganathan 发现,随着摩尔定律的放缓,每四年仅能获得两倍的提升,而且看起来这种差距在不久的将来会进一步扩大。

所以他和谷歌决定做点什么。该公司此前已经投入数亿美元来设计自己的人工智能定制芯片,称为张量处理单元或 TPU。目前谷歌现在已经推出了四代以上的 TPU,这项技术使该公司的人工智能努力领先于竞争对手。

但在谷歌开发 TPU 时,发现人工智能并不是唯一可以改进的计算类型。当 Ranganathan 和其他工程师退后一步,研究其数据中心中计算最密集的应用程序时,他们很快就清楚他们接下来应该处理什么:视频。

“我是从‘我们想要研究的下一个大杀手级应用程序是什么?’的角度来看的,”Ranganathan 说。“然后我们查看了相关需求,我们发现转码占用了我们计算周期的很大一部分。”

谷歌旗下的YouTube是其迄今为止最大的视频相关计算消费者,但它用于在其平台上摄取、转换和播放数十亿视频的芯片类型并不是特别擅长这项工作。转码部分特别棘手,需要强大的芯片才能有效地完成。

因此,将视频转换或转码为最终将播放它们的数千台设备所需的正确格式,让 Ranganathan 觉得这是一个需要花一些时间解决的好问题。转码是非常计算密集型的,但同时,任务本身也很简单,可以设计所谓的专用集成电路或 ASIC 来完成工作。

芯片行业分析师 Mike Feibus 表示:“对于像转码这样的非常具体、高强度的工作负载,他们(选择自研专用的AISC)可以从中获得巨大的收益。”

为了让管理层在 2016 年批准该项目,Ranganathan 的同事 Danner Stodolsky 向负责监督公司庞大基础设施的 YouTube 副总裁 Scott Silver 发送了即时消息。 Scott Silver说,他要求约 40 名员工和数百万美元预算来实现这一目标。

“这非常非常快,因为从经济和工作量以及我们正在做的事情来看,这很有意义。”

Scott Silver 回忆说,这个想法很有意义。在与 YouTube 首席执行官 Susan Wojcicki 进行了 10 分钟的会面后,YouTube 的第一个视频芯片项目获得了绿灯。

“这非常非常快,因为从经济性和工作量以及我们正在做的事情来看,这很有意义,”西尔弗说。

YouTube去年在一篇技术论文中首次向公众披露了该芯片,该芯片以希腊神话中的多眼怪物命名的 Argos,在这份论文当中,YouTube吹嘘其 Argos芯片在转码计算性能方面实现了 20 到 33 倍的提升。如今,谷歌已将其第二代 Argos 芯片部署到全球数千台服务器上,并且未来还有两次迭代正在进行中。

DIY SOC

谷歌自研的 YouTube 芯片是科技巨头中日益增长的自研芯片趋势中的一部分。亚马逊已经构建了它的 Graviton服务器处理器,微软正在开发基于 Arm 的服务器处理器,Facebook 也有一个芯片设计部门。此外,中国的阿里巴巴、腾讯、百度、字节跳动等众多的互联网厂商也都有推出或正在研发自己的芯片,这些例子不胜枚举。

一个普遍的趋势是,大型科技公司芯片都在自研芯片,因为这是一种明显的省钱方式。大多数头部芯片公司的毛利率都在 50% 以上,因此对于本身对于芯片有大量需求的科技企业,通过自研芯片理论上可以节省大量资金。

但根据 D2D 咨询公司负责人 Jay Goldberg 的说法,情况并非如此。一方面,经济学没有意义——为了节省芯片采购支出,而花费大量精力聘请和培养芯片设计师是不值得的。一个新的先进芯片可能要花费数亿美元来简单地构建一个原型,然后再花费数千万美元来完善它。

“我们的重点并不是真正的省钱。”西尔弗说:“我们喜欢省钱,但我们真正想做的是为观众提供同样好的——如果不是更好的话——质量体验。”

动机其实很简单:大型科技公司正在设计自己的芯片以创造战略优势。

“通常这意味着你有一些软件想要绑定到芯片上,你会获得很大的性能提升,”Goldberg 说。最早和最著名的例子之一是谷歌的 TPU,它开发它是为了解决其数据中心的人工智能任务。

对于某些工作负载,“TPU 将他们必须建立的数据中心的数量减少了 50%。”Goldberg 说:“以每个 10 亿美元的价格计算,可以节省很多钱。” 在节省数据中心建设资金的同时,它还为谷歌云提供了微软 Azure 和 亚马逊AWS 当时所没有的东西。

但自研芯片背后的另一部分动机可以追溯到过去 20 年芯片行业的重大整合。大约 20 年前,有数十家公司争相制造大型科技公司想要的芯片,激烈的竞争导致许多竞争设计可供选择。

但是,随着半导体业的持续并购整合,如今,大多数类别中只有一两家大型芯片制造商——尤其是数据中心处理器——这意味着云巨头无法获得完全符合他们需求的芯片。这也迫使他们使用英特尔和英伟达等公司制造的通用处理器,这些处理器虽然也还不错,但相对同质。

“这里真正危在旦夕的是控制半导体公司的产品路线图,”Goldberg 说。“所以他们建立了自己的路线图,他们控制了路线图,并通过这种方式获得了战略优势。”

只需按下“播放”

YouTube 将 Argos 芯片称为视频编码单元或 VCU,它的主要工作是将每分钟上传到网站的 500 小时视频转换为适用于观看 YouTube 的众多设备,从智能手机到电视再到笔记本电脑。有时这意味着每个视频有多达 15 种变体。

尽管自研芯片的目的很简单,而且 Ranganathan 和工程师团队清楚地知道他们希望它完成什么,但设计一块芯片并不是一件小事。仅 YouTube 运营所需的规模就带来了巨大的挑战,迫使团队从芯片本身开始思考设计,一直到 YouTube 如何布置芯片所连接的电路板,以及数据中心机架的设计以及它如何配置每个集群。

“如果加速器集成到其中而没有人使用它,所以?” 兰加纳坦说。“你可以制造出惊人的硬件。但如果你不以我们的软件同事可以使用它的方式构建它,使它实际上可以工作——还有编译和工具、调试和部署等等。”

对 Ranganathan 来说,创建硬件只是任务的一部分:“它只是冰山一角,”他说。深入研究如何将 Argos 芯片集成到公司的数据中心并以 YouTube 的规模运行它们需要软件和硬件工程师之间的密切合作。

因此,Argos 是一块由软件定义的硬件,这意味着在芯片上工作的工程师可以使用所谓的高级综合技术来更快地迭代设计。谷歌开发了自己版本的高级合成软件 Taffel,用于帮助制造 TPU 和 Argos 处理器。

“[T] 他使用以软件为中心的方法来设计硬件的想法是我们在 Argos 中非常努力地推动的东西,”Ranganathan 说。

“这里真正关键的是控制半导体公司的产品路线图。”

Ranganathan 引用的其他“硬件-软件”密切协作的例子之一是工程师如何解决在现场出现故障的 VCU 单元以及一个称为“黑洞”的问题,即在芯片部署失败后浪费资源。从本质上讲,该团队想出了一种检测故障和重新路由流量的方法。

Argos 芯片的第一个版本只是旨在利用 YouTube 正在转码的现有视频工作负载并以更便宜的方式完成它。这些节省让 YouTube 可以开始将更多视频转码为使用更少数据但提供相同图像质量的优质视频编码格式。较小的文件带来了巨大的好处:它们的存储和服务成本更低,它们允许运营商使用更少的带宽,并且它们为消费者提供更快的加载时间。

“我们真正想做的事情是将所有上传到 YouTube 的视频,并将它们转码为各种可能的格式,并获得最佳体验,”Silver 说。“这个问题很棘手。这样做的结果是,它咬掉了那个苹果。”

与用于为数据中心供电的大多数芯片类似,Argos 芯片的存在将完全不会被数亿观看 YouTube 或使用谷歌其他视频产品的人注意到。Silver 表示,该公司没有观察到对 YouTube 在全球运营的任何市场中引入 VCU 的反应。

但这不完全是重点。因为YouTube使用谷歌的定制芯片来实现对于最早在互联网上运营的公司来说完全无法想象的事情。

尽管如此,谷歌制造的一代 VCU 可以与英伟达、AMD 或英特尔制造的芯片竞争,这还不够。谷歌需要领先半导体巨头数年才能开始让定制芯片的提议变得有意义。否则,等待其中一个人这样做更有意义。

但对于 YouTube 来说,设计一块真正适合某个目的的芯片,而将更复杂、更不确定的问题留给可以处理任何类型计算的昂贵芯片则更有意义。

“如果你考虑机器学习训练或推理——这些就像非常大和有趣的工作负载,CPU不能很好地胜任,”Silver 说,“你可能会争辩说,GPU 可以很好地为它们提供服务。但如果你的大多数的算力都在对视频进行转码,这个效率是够好的,而你每年将为此多付出数千万或数亿美元的费用,那么很明显,你有很大的动力通过自研ASIC来做到这一点。”

编辑:芯智讯-浪客剑   来源:protocol

0

付费内容

查看我的付费内容