2月26日,高通在2024年世界移动通信大会(MWC2024)上发布高通AI Hub,并带来多个终端侧AI的最新演示。高通正在为开发者赋能,并变革骁龙和高通平台支持的广泛终端品类上的用户体验。
终端侧AI商用进程已经开始,终端侧AI能够为用户带来即时性、可靠性、隐私以及个性化等诸多优势。骁龙推动了终端侧AI的普及,特别是在2023年10月骁龙峰会上最新发布的面向手机的第三代骁龙8移动平台,以及面向PC的骁龙X Elite平台,开启了终端侧AI的规模化商用。
支持开发者便捷部署AI模型
高通非常重视AI开发者生态,高通正式推出全新的高通AI Hub,为开发者打造获取开发资源的中心,让消费者能够在搭载骁龙8系移动平台的终端上轻松获取生成式AI体验。
高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉表示,借助高通AI Hub,将赋能开发者充分发挥这些前沿技术的潜力,打造具有吸引力的AI赋能应用。高通AI Hub为开发者提供了一个全面的AI模型库,使他们能够轻松快速地将预优化AI模型集成进应用程序,从而打造更快、更可靠且更具隐私性的用户体验。
首先,开发者可以选择应用所需的模型,以及其开发应用所使用的框架。下一步,开发者需要确定他们的目标平台,例如一款特定型号的手机、或者一款特定型号的高通平台(例如第三代骁龙8)。确定以上信息后,高通AI Hub就可以为开发者提供面向其指定应用、指定平台进行优化的模型。开发者只需要几行代码就可以获取模型,并将模型集成进应用程序。
据了解,高通AI Hub将支持超过75个AI模型,包括传统AI模型和生成式AI模型。通过对这些模型进行优化,开发者运行AI推理的速度将提升高达4倍。不仅是速度提升,优化后的模型占用的内存带宽和存储空间也将减少,从而实现更高的能效和更持久的电池续航。这些优化模型将在高通AI Hub、以及HuggingFace和GitHub上提供,让开发者能够将AI模型便捷地集成到工作流中。
Hugging Face联合创始人兼CEO表示,这些主流AI模型面向终端侧机器学习而优化,并且可在骁龙和高通平台上使用,将赋能下一代移动开发者和边缘AI应用,让AI进一步惠及所有人。
展示多个最新终端侧AI演示
多模态AI模型不仅能够接受文本输入,还可以接受图像、音频等其它输入数据类型。会上,高通AI研究演示了在安卓智能手机和Windows PC上运行多模态大模型和定制大视觉模型,展示终端侧AI的应用潜力。
高通展示的首个在搭载第三代骁龙8的安卓手机上运行的多模态大模型(LMM)。在这一演示中,展示了一个超过70亿参数的LMM,其支持文本、语音和图像输入,并能够基于输入的内容进行多轮对话。比如,用户可以拍一张食材的照片,向AI助手提问:这些食材都是什么?根据这些食材能够做什么菜?每道菜的热量是多少?AI助手就能够基于视觉内容提供丰富的信息,所有的功能完全在终端侧运行,能够以非常及时的响应速度生成token,并且更好地保护隐私。
此外,高通还展示了首个在安卓手机上运行的LoRA模型。LoRA能够在不改变底层模型的前提之下,调整或定制模型的生成内容。通过使用很小的适配器,就能够个性化定制整个生成式AI模型的行为。在演示中,模型能够根据不同个人或艺术偏好创建高质量自定义图像。LoRA是面向终端侧生成式AI的关键技术,它能够提升效率,可扩展性以及定制化能力。这一技术不仅能够运用于图像生成,也可以应用于大语言模型等多种生成式AI模型,是实现个性化生成式AI的高效方式。
在搭载全新骁龙X Elite平台的Windows PC上,高通带来另一个多模态AI的演示。这是首个在Windows PC上运行的音频推理多模态大模型,它能理解鸟鸣、音乐或家中的不同声音,并且能够基于这些信息进行对话,为用户提供帮助。例如,多模态大语言模型能够理解用户输入的音乐类型和风格,为用户提供音乐的历史以及相似的音乐推荐,或通过对话的方式为用户调节周围的音乐。以上模型经过优化,能够实现出色的性能和能效,并完全在终端侧运行,以充分发挥骁龙X Elite的强大能力,增强隐私性、可靠性、个性化以及成本优势。
在另外一个对比演示中,分别搭载骁龙X Elite和搭载市场中常见X86芯片的两台笔记本电脑进行对比,两台设备同时运行集成Stable Diffusion插件的GIMP(一款广受欢迎的图像编辑器)进行AI图像生成。结果显示,骁龙X Elite只需7.25秒就能生成一张图像,速度是X86竞品(22.26秒)的3倍。骁龙X Elite的NPU运算能力高达45TOPS,大幅领先于竞品。