谷歌发布多款大模型及第六代TPU,Android系统也将内置端侧模型!

Google I/O 2024 懶人包:Project Astra 探索 AI 代理、Veo 影像生成、第六代 TPU

在OpenAI抢先发布了令人惊艳的AI大模型GPT-4o之后,北京时间5月15日凌晨,一年一度的Google I/O 2024开发者大会正式召开,发布了一系列的AI产品,包括:支持200万tokens超长上下文的Gemini 1.5 Pro改良版、轻量级模型Gemini 1.5 Flash、通用AI Agent、高质量文生图模型Imagen 3、视频生成模型Veo、AI音乐创作工具Music AI Sandbox、视觉语言开放模型PaliGemma等多款模型,以及第六代TPU芯片。同时,谷歌还宣布Android系统也将进入Gemini 时代。

Gemini 1.5 Pro

据谷歌介绍,其去年发布的原生多模态模型Gemini 1.5 Pro已有超过150万开发者使用,该模型可支持100万token上下文长度,可以跨文本、图像、视频、代码等进行推理。目前Gemini 1.5 Pro已经优先提供给Gemini Advanced订阅用户使用,支持超过150个国家的35种语言。

同时,谷歌还带来了Gemini 1.5 Pro的全新升级,目前已经可以支持200万token上下文长度,并提供开发者预览。

谷歌回击OpenAI:搜索大变身,智能体Project Astra剑指GPT-4o

据介绍,通过数据和算法改进,升级版的Gemini 1.5 Pro增强了模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力,在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多项公共基准测试中取得了显著改进,在多项图像和视频理解基准测试中也实现了最先进性能。

Gemini 1.5 Flash

在此基础之上,谷歌还发布了新的轻量化模型Gemini 1.5 flash,这是一个面向端侧AI的模型,同样有100万和200万token的版本,在保持了高性能的同时,速度更快、延迟更低,同时其成本也低至了0.35美元每百万token。

谷歌回击OpenAI:搜索大变身,智能体Project Astra剑指GPT-4o

谷歌“智能体”Project Astra和Gemini Live

谷歌DeepMind CEO哈萨比斯(Demis Hassabis)在此次的开发者大会上,公布了Project Astra计划,探索AI智能体(AI Agents)如何为日常生活提供帮助。

Gemini App新功能Gemini Live将结合Project Astra,可开启手机摄像头与Gemini助理一问一答,类似昨天OpenAI对于GPT-4o的功能的展示。

谷歌回击OpenAI:搜索大变身,智能体Project Astra剑指GPT-4o

在演示过程中,测试人员与多模态Gemini模型所支持的AI智能体原型产品进行互动,利用Pixel手机摄像头对准目标,询问AI智能体看到什么、并回答问题,甚至还使用了搭载摄像头的智能眼镜原型机进行演示。DeepMind计划在AI Sandbox Area的环境下进行测试这项项目。

图片

Gemini App还能设定自己的Gemini定制功能——Gems,例如建立个人专属的瑜伽老师、微积分老师。

视频模型Veo

之前OpenAI发布的视频模型Sora可谓是惊艳世人,现在谷歌也带来了他的视频大模型Veo。

图片

据介绍,全新视频生成模型Veo能以文字转视频,可以生成70秒以上、1080p画质的短片,用户可以自定义各种风格模式。同时,Veo生成的视频镜头有不错的一致性,人、动物、物体的移动显得比较真实、自然。

谷歌表示,Veo是他们在视频生成领域技术的集大成制作,包含了多年来谷歌开发的生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere等各类技术。
在演示视频中,有电影导演也用到了Veo,帮他们把灵感变成现实。该电影导演说,AI可以帮他们快速发现构思中的错误并快速纠正,提高效率。
谷歌称,实现这些,需要让AI模拟世界的物理法则,这是很关键的。预期将Veo成为OpenAI Sora的强有力的竞争对手。
目前Veo尚未完全开放,用户可加入实验室等待名单,在新实验工具VideoFX中尝试。

图象模型Imagen 3

图片

谷歌还公布了号称是目前最强大的图像生成模型的Imagen 3,其能够更好理解文本,创造出逼真图像,也能根据草图快速生成高分辨率图像。并且,谷歌Imagen 3还为图像生成带来了更强的细节表现力。

图片
图片
图片
图片

目前,Imagen 3可供 ImageFX 中的个人预览版和加入谷歌候补名单的创作者使用。

谷歌还宣布,Imagen 3即将登陆 Vertex AI——Google Cloud 的完全托管的统一开发平台,用于大规模利用模型,提供 150 多种第一方、开放和第三方基础模型,用于 使用企业级调优、接地、监控和部署功能自定义模型,以及构建 AI 代理。

Music AI Sandbox

谷歌DeepMind也与YouTube合作带来了AI音乐创作工具Music AI Sandbox,可以改变音乐的创作方式。

图片

谷歌通过Music AI Sandbox与音乐家、词曲作者和制作人合作,可以直接把一段哼唱或者弹奏的灵感片段发给AI,生成一首歌或者一段真正的旋律。

视觉语言开放模型PaliGemma
谷歌此前于2月推出开源模型Gemma,包含7B、2B两种参数规模,在各大开源社区下载量已累计数百万次。
此次,谷歌发布其首个视觉语言开放模型PaliGemma,基于SigLIP视觉模型和Gemma语言模型等开放组件构建,用于在各种视觉语言任务上实现一流的微调性能,包括图像和短视频字幕、视觉问答、理解图像中的文本、对象检测和对象分割等。

图片

Gemma 2预告
谷歌还透露,将在未来几周正式发布一个有270亿个参数的Gemma 2模型版本,性能可媲美Meta Llama 3 70B,尺寸不到Llama 3 70B的一半,可在NVIDIA GPUs或Vertex AI单个TPU主机上运行。

图片

目前Gemma 2还在进行预训练。下图展示了最新的Gemma 2检查点的性能以及基准预训练指标。

图片

谷歌AI搜索

Google为搜寻带来新的多步骤推理功能,它将一个问题分解成多个部分,并找出要解决的问题及按什么顺序解决,过去需要几分钟甚至几小时的搜寻和整理,未来只要几秒钟就能完成。

借助Gemini的搜索新功能,谷歌AI Overviews相比传统搜索引擎的结果,其将为用户呈现出完整的包括观点、见解、链接的答案。

谷歌搜索负责人Liz Reid强调,谷歌的AI搜索概述有三大独特优势:实时信息、排名和质量体系、Gemini模型能力。
例如,用户想找一个合适的普拉提工作室,需要同时考虑时间、价格、距离等因素。用户可以在谷歌搜索输入:在波士顿找到最好的瑜伽工作室,并显示优惠详情、从我家过去的步行时间。谷歌搜索即可提炼整合出这些信息,并呈现在AI搜索概述中,可以为用户节省数个小时的时间。

图片

今日起,谷歌AI搜索开始向美国用户推出,很快也向更多国家提供服务。
另外,在谷歌相册方面,Gemini也让照片搜索变得更容易。假设用户在停车场准备付款但想不起自己的车牌号,他可以简单地询问Gemini,基于之前拍的照片告诉用户车牌号码。图片

谷歌透露,每天有超过60亿张照片上传到 Google 相册,现在,通过“询问照片”,用户可以以一种自然的方式询问你要找的东西,比如:“给我看我去过的每个国家公园的最佳照片。

此外,谷歌还带来了画圈搜索功能,即针对页面的文字信息/图片内容进行画圈,即可进行对应的搜索。
例如,在学习过程中,用户可以直接把不懂的问题圈出来,Gemini就会给用户一步步的问题解答,可谓是哪里不会圈哪里。
图片
谷歌称,画圈搜索后续面可以处理公式、复杂图表,目前已经应用在1亿台设备上,谷歌计划把这个数字在年底翻倍。
此前谷歌已通过三星Galaxy S24系列的合作,展示画圈搜索能力,该功能目前已在全球1亿台安卓设备使用,并且作为安卓独占功能,该能力计划在今年底扩展到2亿台设备。

谷歌Workspace

谷歌Workspace以侧边栏形式使用Gemini 1.5 Pro模型提升生产力,将使跨应用程序的工作变得更加容易,例如AI Teammate可从Gmail、Meet等归纳、排序工作重要信息。

图片

也可以在Gmail中追踪订单、识别相关收据,同时在谷歌Drive和Sheets中识别收据,并进行归纳整理,放到一个文件夹里,然后把其中关键信息整理进表格里。也可以通过数据问答让Gemini帮你分析开支。

Android系统与Gemini整合

自去年以来,手机芯片厂商高通和联发科都推出了支持端侧AI大模型运行的处理器平台,各大手机品牌厂商也纷纷推出了“AI手机”,但是在这过程中,需要芯片厂商、大模型厂商和手机品牌厂商三方的深度合作才能带来不错的体验。

现在,谷歌直接将其Gemini端侧模型与其新的Android系统进行整合,这将是首个内置端侧AI的移动操作系统,助力打造系统级的AI手机。

图片

谷歌宣布,Android 15已融入谷歌Gemini大模型,支持诸如AI语音助理防诈骗、画圈搜索、理解图片给出更符合用户需求的答案等功能,

此外,Android 15还新增了多项功能,比如弱光增强功能,这是一种新的自动曝光模式,它与夜间模式相机创建静态图片的方式不同,后者会通过多张合成来提升夜景表现。

Android 15 Beta 2将在明天正式推出。

第六代TPU

谷歌十多年前意识到需要一款专门用于机器学习的芯片,因此2013年开始研发制造全球首款专为AI打造的加速器TPU v1(Tensor Processing Unit),并在2017年推出首款Cloud TPU。在此次开发者大会上,谷歌还发布了名为Trillium的第六代TPU,这也是迄今为止谷歌最高性能且最节能的TPU。

Google 發表第六代 Trillium TPU,運算效能提升 4.7 倍

据介绍,与TPU v5e相比,Trillium单芯片峰值计算性能提升了4.7倍,其高带宽內存(HBM)容量和带宽都提升了1倍,芯片间互连网络(Interchip Interconnect,ICI)带宽也提高了1倍。Trillium能源效率也比TPU v5e高出了67%。

此外,Trillium配备第三代SparseCore,这是处理超大嵌体的专用加速器,用于处理进阶排名和推荐工作负载。

Trillium可在单个高带宽、低延迟的Pod扩展多达256个TPU。除了该Pod级别的可扩充性以外,Trillium借助多切片技术(Multislice technology)和Titanium智慧处理单元(Intelligence Processing Unit),还能扩充到数百个Pods。

Trillium将帮助谷歌更快训练下一代基础模型,以较短延迟时间和较低成本提供模型服务。

谷歌表示,TPU是其推出许多服务的最大功臣之一,要是少了它,如即时语音搜寻、相片物件辨识及互动式语言翻译,还有最先进的Gemini、Gemma、Imagen模型等无法顺利问世。

今年晚些时候,Trillium将提供给Google Cloud客户选用。此外,Trillium搭配专为数据中心设计的自研处理器Axion和NVIDIA Blackwell GPU,预计2025年投入数据中心。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容