英伟达的订阅软件帝国正在形成

英伟达的订阅软件帝国正在形成

8月7日消息,随着人工智能(AI)的繁荣,英伟达(NVIDIA)的收入飙升,以至于它一度成为世界上最有价值的公司。这种增长主要是由于AI需求爆发下,市场对其数据中心 GPU 的需求推动的,这些 GPU 用于训练和运行不断增长的更好、更智能、更大的大语言模型。但是,尽管投资者愿意相信英伟达CEO黄仁勋的GPU帝国将继续增长,一个季度又一个季度翻一番,但没有什么是永恒的。如果英伟达的未来只围绕销售GPU而展开,那么这可能是一件大事。但正如黄仁勋经常提醒人们的那样,英伟达既是一家硬件企业,也是一家软件企业。

开拓新市场

从一开始,英伟达就认识到软件在推动 GPU 采用方面的价值。在上周SIGGRAPH活动上与记者劳伦·古德(Lauren Goode)的炉边谈话中,黄仁勋强也调了这一点。

他解释说:“每次我们推出特定领域的库时,它都会将加速计算暴露给新市场。“这不仅仅是构建加速器,你还必须构建整个堆栈。”

2007 年,英伟达的计算统一设备架构CUDA的第一个版本发布,它提供了一个 API 接口,用于跨 GPU 并行处理非图形工作负载。虽然这仍然需要开发人员和研究人员重构代码,但对通用处理器的改进是不容忽视的。

对于 HPC 社区的人来说尤其如此——这是英伟达在其旧的游戏和专业图形领域之外寻求的首批市场之一。2012 年末,英伟达的软件投资帮助橡树岭国家实验室的 Titan 超级计算机位居 Top500 榜首。

在首次发布 17 年后,CUDA 只是为特定市场量身定制的不断增长的计算框架之一——从深度学习到计算光刻和量子计算仿真。

这些框架帮助英伟达为其加速器创造了市场,而这些市场以前几乎不存在。

超越赋能

软件是英伟达不那么秘密的武器,但直到最近,这种“武器”还采取了新赋能的形式。在过去的两年中,我们看到加速器冠军的软件战略以一种有意义的方式采用了订阅定价模式。

2022 年初,在 OpenAI 的 ChatGPT 掀起 AI 淘金热的几个月前,英伟达首席财务官 Collete Kress 详细介绍了这家 GPU 巨头的订阅推动路线图——她认为,这最终将推动一万亿美元的收入。

当时,Kress 预测,其中 1500 亿美元的机会将由英伟达的 AI Enterprise 软件套件推动。即使现在它已经公布了 260 亿美元的季度业绩,该业务仍远低于这一万亿美元的目标——但我们开始更好地了解它的增长方式。

从软件的角度来看,关于人工智能支持的大部分工作已经完成。英伟达投入了大量资源来开发 cuDNN、TensorRT LLM 和 Triton 推理服务等工具,以便在运行 AI 模型时充分利用其硬件。

然而,这些只是一个拼图的一部分,必须仔细组装和调整才能提取这种性能,而且每个模型的调整都会有所不同。它需要对模型、软件和底层硬件有一定程度的熟悉,而企业不太可能具备这些熟悉程度。

构建 AI 简单按钮

在去年春季的GTC活动中,英伟达展示了一项新产品,旨在降低大规模采用和部署生成式AI的门槛。该技术称为 Nvidia Inference 微服务,简称 NIM,本质上由容器化模型和工具组成,这些模型和工具附带了运行它们所需的一切,并已预先配置。

NIM 容器几乎可以部署在任何支持 Nvidia GPU 的运行时中。这听起来可能并不那么令人兴奋——但这就是重点。容器编排并不是一个容易解决的问题——只需询问 Kubernetes 开发人员即可。那么,当您可以利用客户已经投资的现有工具和服务时,为什么要重新发明轮子呢?

NIM 的真正价值似乎来自 Nvidia 工程师针对特定模型或用例(如检索增强生成 (RAG))调整 TensorRT LLM 或 Triton 推理服务器等内容。如果你不熟悉,你可以在这里找到我们关于RAG的实践指南,但要点是,Nvidia不仅在其硬件方面,而且在其软件方面都在扮演系统集成商的角色。

NIM 不仅仅是巧妙的包装。通过致力于构建一个通用的 API,用于模型和工具应如何相互通信,Nvidia 可以为客户提供旨在解决特定用例的模板。

英伟达的定价阶梯

降低采用和部署 AI 推理的门槛对软件许可和硬件销售都有好处。在软件方面,在生产环境中部署 NIM 所需的 AI Enterprise 许可证将使您每年每个 GPU 花费 4,500 美元,或每小时每个 GPU 1 美元。

因此,要使用 NIM 部署 Meta 的 Llama 3.1 405B 模型,您不仅需要租用或购买配备 8 台 H100 或 H200 的系统——这是运行模型所需的最低限度,而无需采用更激进的量化水平——但您还需要支付 36,000 美元/年或 8 美元/小时的许可费。

假设使用寿命为六年,则每个系统的许可证收入在 180,000 美元到 420,480 美元之间,具体取决于您是预先付款还是按小时付款。实际上,希望部署人工智能的企业将需要多个系统来实现冗余和规模。

这种价格差异可能会使承诺获得年度许可证似乎是一个显而易见的选择。但请记住,我们谈论的是微服务,如果实施得当,应该能够根据需求扩大或缩小规模。

但是,假设 Llama 3.1 405B 大模型对您的需求来说有点过头了,运行更小参数规模的大模型——采用成本低得多的NVIDIA L40S 甚至 L4S可能就足够了。英伟达的定价结构的设置方式是推动客户转向更强大、能力更强的加速器。

无论您使用的是 8 台 L40S 还是 8 台 H200,AI Enterprise 许可证的费用都是一样的。这就产生了一种情况,即购买或租用较少的高端 GPU 并在更大的批量大小或队列下运行模型可能更经济,因为在部署的整个生命周期内,您的许可费用会更低。

随着单个 A100 和 H100 实例变得越来越普遍(例如,Oracle Cloud Infrastructure 上周宣布推出),企业在评估此类部署的总成本时可能需要考虑这一点。

稍微回顾一下,如果 NIM 帮助英伟达在预计 2024 年出货的 200 万个 Hopper GPU 中的每一个都附加一个 AI Enterprise,那么它的年度订阅收入将再增加 9 至 175 亿美元。实际上,这不会发生——但即使它能实现其中的一小部分,仍然可以带来数十亿美元的年收入。

这并不是说NIM没有挑战。与 AI 训练相比,推理并不是特别挑剔。有几个模型运行器支持跨英伟达、AMD 甚至通用 CPU 进行推理。相比之下,NIM 只能在 Nvidia 硬件上运行——这对于希望利用 Kubernetes 等容器编排系统大规模部署和提供其模型的客户来说可能会受到限制。

虽然英伟达仍然控制着人工智能基础设施市场的大部分份额,但这可能不会是一个大问题,但对于担心供应商锁定的客户来说,这无疑是一个很大的危险信号。

它不仅可能引起股东的注意,还可能引起司法部的注意。据说美国司法部正在对这家GPU巨头提起反垄断诉讼。

也就是说,如果您只是想使模型更易于在各种云和本地基础设施中部署,那么实际上没有什么可以阻止任何人创建自己的 NIM 等效物,并根据他们喜欢的硬件或软件进行调整。事实上,令人惊讶的是,更多的开发人员还没有做过这样的事情。我们可以很容易地想象AMD和Intel将类似的服务推向市场 - 甚至可能通过免费提供它们来削弱英伟达。

归根结底,英伟达 NIM 的成功可能取决于它们的调优效率或性能如何提高,以及它们在多大程度上更容易拼接在一起。

编辑:芯智讯-林子   来源;theregister

0

付费内容

查看我的付费内容