安霸发布N1系列生成式AI芯片，支持前端设备运行本地LLM应用

2024年01月10日

1月9日消息，在2024国际消费电子展（CES）期间，Ambarella（安霸）展示了在其新款N1系列SoC上运行多模态大模型（Multi-Modal LLM），其每次推理的功耗显著低于当前市场的通用GPU解决方案。

生成式AI是为了处理大规模数据集而最早应用于服务器上的变革性技术，而安霸的目标是将生成式AI部署于终端设备和本地硬件上，从而将其广泛应用于视频安防分析、机器人以及众多工业领域。

安霸将在中高端SoC上提供已优化的生成式AI处理。这些AI SoC包含了功耗低于5W的CV72芯片，以及最新的可应用于服务器端，功耗低于50瓦的N1芯片。与GPU及其他AI加速器相比，安霸提供了完整的SoC解决方案，每生成一个token的能效比最高可提高3倍，并可快捷、低成本地部署在终端产品中。

安霸首席技术官兼联合创始人Les Kohn表示：“生成式AI在我们的目标市场上实现了突破，之前无法想象的功能得以实现。使用我们的N1系列SoC来进行多模态大模型推理，将使所有的前端设备变得更智能，更低功耗，和更低成本。”

市场研究公司Omdia高级计算首席分析师Alexander Harrowell表示：“在未来18个月内，几乎所有设备前端应用都将被生成式AI增强。把生成式AI的计算转移到设备前端的要点，就在于每瓦的AI性能，以及它与前端生态系统其余部分的集成，而不仅仅是原始数据的吞吐量。”

所有安霸的AI SoC均可搭配全新的Cooper开发平台。此外，为了缩短客户新产品上市的时间，安霸已预先移植和优化了Llama-2等流行的大语言模型。其在N1芯片上运行的大语言和视觉助手LLava模型，可对多达32个摄像头同时进行多模态视觉分析。这些经过预训练和调优的模型可从Cooper Model Garden下载。

在现实世界的众多应用里，除了语言，视觉输入也是一种关键模式。安霸SoC的特有架构非常适合以超低功耗同时运行视频处理和AI计算。安霸的AI SoC并不是单一的AI加速器，它不仅能够高效处理多模态大模型，还能同时执行各种系统功能。

生成式AI将成为计算机视觉处理中跨越式的新技术，它可将上下文学习和场景理解应用于各种设备，从而涵盖安防设施、自主机器人以及众多工业应用。基于安霸AI芯片的设备端通过运行大语言模型和多模态处理可实现以下功能：安防视频的上下文智能搜索、通过自然语言命令控制的机器人、以及多才多艺的AI助手，比如代码、文本和图像的生成等。

这些依赖摄像头和自然语言理解的系统，大部分将受益于设备前端的生成式AI处理，其处理速度得以提高，隐私保护得到加强，并且总成本也会降低。安霸解决方案支持的本地处理也非常适合垂直领域大语言模型，这些大语言模型通常需要针对每个具体应用场景进行调整；而传统的集中式服务器方案则是使用更大、功耗更高的大语言模型来满足不同用例的要求。

基于安霸最初为自动驾驶开发的CV3-HD架构，N1系列SoC对总算力资源进行了针对性的优化，从而以超极低功耗运行多模态大模型。例如，N1 SoC在单流模式下以低于50瓦的功耗运行Llama2-13B，每秒可推理25个token。N1解决方案自带移植好的大模型，使系统整合更容易，因此它可快速帮助OEM厂商部署生成式AI，特别是要求低功耗的各种应用，比如自带本地应用的AI智能盒子、送货机器人等，不一而足。

本周，安霸将在CES展会期间持续演示N1 SoC及其多模态大模型功能。