利用NPU和异构计算,高通为终端侧生成式AI普及按下“加速键”

当前,生成式AI变革正加速数字化转型,推动经济增长。根据麦肯锡研究,生成式AI技术可使60多个用例每年实现2.6万亿至4.4万亿美元的总体经济效益增长,经济规模大致相当于英国2021年的GDP。在移动领域,AI的影响已经深入到摄影摄像、电源管理、性能提升、恶意软件侦测和安全保障等多个方面,并为用户带来更加个性化、高效、安全和高度优化的体验。

随着生成式AI的快速发展,AI处理的重心正在向边缘转移,这使智能手机和其他便携式终端设备面临全新挑战,例如在功耗和散热受限的条件下难以满足严苛且多样化AI用例的计算需求,以及随着AI应用的不断演进,功能固定的硬件难以适应变化。为此,异构计算架构变得尤为重要,它能充分发挥不同处理器的优势,提供最佳的应用性能、能效和电池续航能力,为用户带来全新的生成式AI体验。

NPU和异构计算开启终端侧生成式AI

在不断增长的用户需求、全新应用和终端品类以及技术进步的驱动下,计算架构正不断演进。近年来,适合终端侧执行的生成式AI模型日益复杂,参数规模不断提升,且多模态趋势日益增强,此外许多用例需要同时运行多个模型。生成式AI工作负载的复杂性、并发性和多样性需要利用SoC中所有处理器的能力。

图片

支持处理多样性的异构计算架构能够发挥每个处理器的优势。例如,CPU和GPU是通用处理器,它们为灵活性而设计,非常易于编程,“本职工作”是负责运行操作系统、游戏和其他应用等。而这些“本职工作”同时也会随时限制他们运行AI工作负载的可用容量。NPU专为AI打造,AI就是它的“本职工作”。NPU降低部分易编程性以实现更高的峰值性能、能效和面积效率,从而运行机器学习所需的大量乘法、加法和其他运算。通过使用合适的处理器,异构计算能够实现最佳应用性能、能效和电池续航,赋能全新增强的生成式AI体验。

近期,高通在其最新发布的AI白皮书——《通过NPU和异构计算开启终端侧生成式AI》中,将NPU的设计重要性提升到了生成式AI应用的基础地位。高通AI引擎中的关键处理器——Hexagon NPU是高通业界领先的异构计算架构,经过多年研发,高通Hexagon NPU持续演进以满足日益增长的AI需求。从2007年的首款Hexagon DSP到2015年集成AI引擎的骁龙820,再到后续版本中引入的张量加速器和架构更新,高通不断优化NPU以提升性能和能效。

图片

除Hexagon NPU,高通AI引擎还包括了高通Adreno GPU、高通Kryo或高通Oryon CPU、高通传感器中枢和内存子系统。这些处理器为实现协同工作而设计,能够在终端侧快速且高效地运行AI应用。通过结合CPU、GPU和专门的AI处理单元NPU,高通AI引擎能够为不同类型的AI工作负载提供最适合的计算资源,充分发挥每种处理器擅长处理的特定类型任务。高通的异构计算引擎不仅提升了性能和能效,也使得终端设备能够更加灵活地处理各种AI应用,从而提供最佳的用户体验。

图片

高通不仅在硬件层面进行创新,也在软件和算法优化、开发工具及服务支持等方面进行全面布局。例如,高通AI软件栈进一步加速了生成式AI应用的开发和部署。通过全面支持主流AI框架和执行环境(runtime),如TensorFlow、PyTorch、ONNX、Keras等,开发者可在高通硬件上创建、优化和部署AI应用,一次编写即可实现在不同产品和细分领域采用高通芯片组解决方案进行部署。这不仅加速了AI应用的创新和普及,也使得终端设备能够利用生成式AI的强大能力,为用户带来更加丰富、个性化的体验。

图片

面向开发者,高通还推出了全新高通AI Hub,帮助其轻松快速地将预优化AI模型集成进应用程序,从而缩短产品上市时间。该模型库提供超过75个主流的AI和生成式AI模型,比如Whisper、ControlNet、Stable Diffusion和Baichuan-7B,可在不同执行环境中打包,能够在不同形态终端中实现卓越的终端侧AI性能、降低内存占用并提升能效。所有模型均经过优化,以充分利用高通AI引擎内所有核心(NPU、CPU和GPU)的硬件加速能力,从而使推理速度提升4倍。

高通在AI模型的优化上也不遗余力,包括量化、压缩和神经网络架构搜索等策略,以实现性能和能效的最大化。这些优化措施,特别是量化技术,对于提升大模型的运行效率至关重要,使高通的NPU在处理大规模神经网络模型时能够展现出卓越的性能和能效。高通软硬件一体化的布局,体现了对未来AI应用发展趋势的深刻理解和支持。通过不断的技术创新和优化,高通在推动终端侧AI发展的过程中发挥着重要作用,为开发者和消费者带来更加智能、高效和个性化的移动体验。

AI和5G融合创新:让智能计算无处不在

连接对于推动生成式AI跨云端、边缘侧和终端侧规模化扩展至关重要。在推动终端侧AI与5G融合创新方面,高通也进行了广泛的技术探索和实践。

在智能手机领域,高通的技术创新为用户带来了前所未有的体验。通过将终端侧AI和无线连接相结合,高通使智能手机能够实现更快的数据下载速度,支持高清视频流、云游戏和AR/VR应用,提升了娱乐和生产力应用的体验。例如,高通的快速AI处理能力使得智能手机能够实时进行高级图像处理和增强现实应用,为用户带来更加丰富和沉浸式的娱乐体验。

图片

为了将行业领先的终端侧AI和突破性连接能力扩展至更多智能手机,高通于近日推出了第三代骁龙8s移动平台。第三代骁龙8s通过在SoC中的不同模块进行分布式处理,包括Hexagon NPU, Kryo CPU和Adreno GPU,能够更为高效地处理当下的应用需求,并且最小化功耗。在第三代骁龙8s中,高通还通过AI对一些GPU特性进行增强,为很多消费者关心的、经常使用的第三方应用,带来显著的性能提升和功耗降低,带来更为流畅、无延迟的用户体验。

此外,该平台能够支持高达100亿参数级别的大语言模型,并支持更为广泛的AI模型,包括目前主流的Baichuan-7B、Gemini Nano、Llama 2和智谱ChatGLM等。在连接方面,第三代骁龙8s采用了由开创性AI加持的骁龙X70,支持广泛的全球网络,提供了最新的Release 17 5G特性,并具备超低的5G时延和卓越的电池效率。据悉,第三代骁龙8s将由Xiaomi Civi 4 Pro全球首发搭载;荣耀、iQOO、真我realme、Redmi等主要OEM厂商和品牌都将采用第三代骁龙8s。

通过在多代调制解调器及射频系统中整合AI,高通还利用AI能力优化5G网络的性能和效率。例如,高通最新推出的第三代AI赋能的5G调制解调器骁龙X80,将AI和出色的频谱灵活性、能效与性能相融合。通过多项AI增强特性,高通5G解决方案能够实时分析网络条件,智能调整网络参数,从而提高网络覆盖范围和信号质量。AI还被用于动态管理5G网络的能源消耗,通过预测网络负载和用户行为,智能调节网络设备的功耗,从而实现更高的能效比。此外,高通还推出了全球首个支持AI优化性能并在单个芯片中集成Wi-Fi 7、蓝牙和超宽带技术的解决方案——高通FastConnect 7900移动连接系统,利用AI树立高性能、低时延和低功耗连接新标杆。

通过不断的技术创新和优化,高通加速了生成式AI在终端设备上的应用普及,推动智能技术的发展和应用。高通全面的产品布局和技术领导力,不仅让智能手机等终端设备厂商迅速响应,也预示着在更多领域的生成式AI应用将加速落地,提升用户体验。随着终端侧生成式AI的普及和相关用例的落地,万物智能互联的时代正加速而至。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容