Arm计算平台加持，全新 Llama 3.2 LLM实现AI推理的全面加速和扩展

2024年09月26日

人工智能 (AI)的迅猛发展意味着大语言模型 (LLM)的新版本不断推陈出新。要充分发挥 AI的潜力并抓住其带来的机遇，需要实现 LLM从云端到边缘侧的广泛部署，而这也伴随着对计算和能源需求的大幅增长。整个生态系统正携手寻找应对这一挑战的解决方案，不断推出新的更加高效的开源 LLM，以便大规模实现各种 AI 推理工作负载，加快为用户带来全新、快速的 AI体验。

当地时间9月25日，Meta正式推出了 Llama 3.2 AI 模型，其特点是开放和可定制，开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型，代表了 Meta 在大型语言模型（LLMs）方面的最新进展，在各种使用案例中提供了更强大的功能和更广泛的适用性。

其中包括适合边缘和移动设备的中小型视觉 LLMs （11B 和 90B），以及轻量级纯文本模型（1B 和 3B），此外提供预训练和指令微调（instruction-tuned）版本。

Llama 3.2 90B Vision（文本 + 图像输入）：Meta 最先进的模型，是企业级应用的理想选择。该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。它还引入了图像推理功能，可以完成图像理解和视觉推理任务。该模型非常适合以下用例：图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理，以及文档视觉问题解答。

Llama 3.2 11B Vision（文本 + 图像输入）：非常适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。该模型在文本摘要、情感分析、代码生成和执行指令方面表现出色，并增加了图像推理能力。该模型的用例与 90B 版本类似：图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理，以及文档视觉问题解答。

Llama 3.2 3B（文本输入）：专为需要低延迟推理和有限计算资源的应用而设计。它擅长文本摘要、分类和语言翻译任务。该模型非常适合以下用例：移动人工智能写作助手和客户服务应用。

Llama 3.2 1B（文本输入）：Llama 3.2 模型系列中最轻量级的模型，非常适合边缘设备和移动应用程序的检索和摘要。该模型非常适合以下用例：个人信息管理和多语言知识检索。

其中 Llama 3.2 1B 和 3B 模型支持 128K 标记的上下文长度，在边缘本地运行的设备用例（如摘要、指令跟踪和重写任务）中处于领先地位。这些模型在第一天就支持高通和联发科硬件，并针对 Arm 处理器进行了优化。

Llama 3.2 11B 和 90B 视觉模型可直接替代相应的文本模型，同时在图像理解任务方面优于 Claude 3 Haiku 等闭源模型。

在Llama 3.2发布的同时，Arm与Meta展开紧密合作，宣布在 Arm CPU上启用新的Llama 3.2 LLM，集成开源创新与 Arm计算平台的优势，显著推进了解决AI挑战的进程。得益于Arm的持续投资及与新型LLM的合作， Arm CPU运行 AI 的优势在生态系统中脱颖而出，使Arm成为 AI 推理开发者的首选平台。

加速云到边缘侧的 AI性能

小型 LLM（如 Llama 3.2 1B 和 3B）能够支持基于文本的基础生成式 AI 工作负载，对于大规模 AI推理的实现至关重要。通过 Arm CPU优化内核在 Arm技术驱动的移动设备上运行新的 Llama 3.2 3B LLM，可让提示词处理速度提高五倍，词元 (token) 生成速度提高三倍，在生成阶段实现每秒 19.92个词元。这将直接减少了在设备上处理 AI工作负载的延迟，大大提升了用户整体体验。此外，当边缘侧能处理的 AI工作负载越多，往返云端传输数据所节省的电量就越多，进而节省了能源和成本。

除了在边缘侧运行小型模型，Arm CPU同样支持在云端运行更大的模型（如 Llama 3.2 11B 和 90B）。11B和 90B的模型非常适合云端基于 CPU的推理工作负载，可生成文本和图像，其中，在Arm Neoverse V2上的测试结果展现出了更大的性能提升。在基于 Arm 架构的 AWS Graviton4上运行 11B的图像和文本模型，可以在生成阶段实现每秒 29.3个词元的表现，远远超出了人类大约每秒阅读五个词元的速度。

AI将通过开源创新和生态系统协作迅速扩展

能公开获取新的 LLMs（如Llama 3.2）至关重要。开源创新正以迅猛速度发展，在之前的版本中，开源社区在不到 24小时的时间内便能在 Arm上部署并运行新的 LLM。

Arm将通过Arm Kleidi进一步支持软件社区，让整个 AI技术栈能够充分发挥这一优化的 CPU性能。Kleidi可在任何 AI框架上解锁 Arm Cortex和 Neoverse CPU的 AI功能和性能，无需应用程序开发者进行额外的集成工作。

通过最近的Kleidi与 PyTorch集成以及正在推进的与 ExecuTorch集成，Arm正在为基于 Arm CPU的开发者提供从云端到边缘侧的无缝 AI性能。得益于Kleidi与 PyTorch的集成，在基于 Arm架构的 AWS Graviton处理器上运行 Llama 3 LLM的词元首次响应时间加快了 2.5倍。

同时，在端侧，与参考实现相比，在 KleidiAI库的加持下，使用 llama.cpp库在新的Arm Cortex-X925 CPU上运行 Llama 3的词元首次响应时间加快了 190%。

构建 AI的未来

Arm与Meta的合作成为了行业合作的新标杆，汇聚了 Arm计算平台的灵活性、普及性和 AI功能，以及 Meta等行业巨头的技术专长，共同解锁AI广泛应用的新机遇。无论是利用端侧 LLM满足用户的个性化需求，如根据用户所处的位置、日程和偏好来执行任务，还是通过企业级应用来优化工作效率，让用户能够更专注于战略性任务，Arm技术的集成都为未来奠定了基础。未来，设备不再只是命令和控制工具，更是能在提升用户整体体验方面扮演积极的作用。

在 Arm CPU上运行 Meta最新 Llama 3.2版本，其AI性能实现了显著提升。这类开放式合作是实现无处不在的 AI创新、促进 AI可持续发展的最佳途径。通过新的 LLM、开源社区和 Arm 的计算平台，Arm正在构建 AI的未来，到 2025 年，将有 1000多亿台基于 Arm架构的设备支持 AI。

Arm计算平台加持，全新 Llama 3.2 LLM实现AI推理的全面加速和扩展

相关文章:

付费内容

Arm计算平台加持，全新 Llama 3.2 LLM实现AI推理的全面加速和扩展

相关文章:

付费内容

Trending now