在OpenAI抢先发布了令人惊艳的AI大模型GPT-4o之后,北京时间5月15日凌晨,一年一度的Google I/O 2024开发者大会正式召开,发布了一系列的AI产品,包括:支持200万tokens超长上下文的Gemini 1.5 Pro改良版、轻量级模型Gemini 1.5 Flash、通用AI Agent、高质量文生图模型Imagen 3、视频生成模型Veo、AI音乐创作工具Music AI Sandbox、视觉语言开放模型PaliGemma等多款模型,以及第六代TPU芯片。同时,谷歌还宣布Android系统也将进入Gemini 时代。
Gemini 1.5 Pro
据谷歌介绍,其去年发布的原生多模态模型Gemini 1.5 Pro已有超过150万开发者使用,该模型可支持100万token上下文长度,可以跨文本、图像、视频、代码等进行推理。目前Gemini 1.5 Pro已经优先提供给Gemini Advanced订阅用户使用,支持超过150个国家的35种语言。
同时,谷歌还带来了Gemini 1.5 Pro的全新升级,目前已经可以支持200万token上下文长度,并提供开发者预览。
据介绍,通过数据和算法改进,升级版的Gemini 1.5 Pro增强了模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力,在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多项公共基准测试中取得了显著改进,在多项图像和视频理解基准测试中也实现了最先进性能。
Gemini 1.5 Flash
在此基础之上,谷歌还发布了新的轻量化模型Gemini 1.5 flash,这是一个面向端侧AI的模型,同样有100万和200万token的版本,在保持了高性能的同时,速度更快、延迟更低,同时其成本也低至了0.35美元每百万token。
谷歌“智能体”Project Astra和Gemini Live
谷歌DeepMind CEO哈萨比斯(Demis Hassabis)在此次的开发者大会上,公布了Project Astra计划,探索AI智能体(AI Agents)如何为日常生活提供帮助。
Gemini App新功能Gemini Live将结合Project Astra,可开启手机摄像头与Gemini助理一问一答,类似昨天OpenAI对于GPT-4o的功能的展示。
在演示过程中,测试人员与多模态Gemini模型所支持的AI智能体原型产品进行互动,利用Pixel手机摄像头对准目标,询问AI智能体看到什么、并回答问题,甚至还使用了搭载摄像头的智能眼镜原型机进行演示。DeepMind计划在AI Sandbox Area的环境下进行测试这项项目。
Gemini App还能设定自己的Gemini定制功能——Gems,例如建立个人专属的瑜伽老师、微积分老师。
视频模型Veo
之前OpenAI发布的视频模型Sora可谓是惊艳世人,现在谷歌也带来了他的视频大模型Veo。
据介绍,全新视频生成模型Veo能以文字转视频,可以生成70秒以上、1080p画质的短片,用户可以自定义各种风格模式。同时,Veo生成的视频镜头有不错的一致性,人、动物、物体的移动显得比较真实、自然。
图象模型Imagen 3
谷歌还公布了号称是目前最强大的图像生成模型的Imagen 3,其能够更好理解文本,创造出逼真图像,也能根据草图快速生成高分辨率图像。并且,谷歌Imagen 3还为图像生成带来了更强的细节表现力。

目前,Imagen 3可供 ImageFX 中的个人预览版和加入谷歌候补名单的创作者使用。
谷歌还宣布,Imagen 3即将登陆 Vertex AI——Google Cloud 的完全托管的统一开发平台,用于大规模利用模型,提供 150 多种第一方、开放和第三方基础模型,用于 使用企业级调优、接地、监控和部署功能自定义模型,以及构建 AI 代理。
Music AI Sandbox
谷歌DeepMind也与YouTube合作带来了AI音乐创作工具Music AI Sandbox,可以改变音乐的创作方式。
谷歌通过Music AI Sandbox与音乐家、词曲作者和制作人合作,可以直接把一段哼唱或者弹奏的灵感片段发给AI,生成一首歌或者一段真正的旋律。
视觉语言开放模型PaliGemma
谷歌此前于2月推出开源模型Gemma,包含7B、2B两种参数规模,在各大开源社区下载量已累计数百万次。
此次,谷歌发布其首个视觉语言开放模型PaliGemma,基于SigLIP视觉模型和Gemma语言模型等开放组件构建,用于在各种视觉语言任务上实现一流的微调性能,包括图像和短视频字幕、视觉问答、理解图像中的文本、对象检测和对象分割等。
Gemma 2预告
谷歌还透露,将在未来几周正式发布一个有270亿个参数的Gemma 2模型版本,性能可媲美Meta Llama 3 70B,尺寸不到Llama 3 70B的一半,可在NVIDIA GPUs或Vertex AI单个TPU主机上运行。
目前Gemma 2还在进行预训练。下图展示了最新的Gemma 2检查点的性能以及基准预训练指标。
谷歌AI搜索
Google为搜寻带来新的多步骤推理功能,它将一个问题分解成多个部分,并找出要解决的问题及按什么顺序解决,过去需要几分钟甚至几小时的搜寻和整理,未来只要几秒钟就能完成。
借助Gemini的搜索新功能,谷歌AI Overviews相比传统搜索引擎的结果,其将为用户呈现出完整的包括观点、见解、链接的答案。
谷歌搜索负责人Liz Reid强调,谷歌的AI搜索概述有三大独特优势:实时信息、排名和质量体系、Gemini模型能力。
例如,用户想找一个合适的普拉提工作室,需要同时考虑时间、价格、距离等因素。用户可以在谷歌搜索输入:在波士顿找到最好的瑜伽工作室,并显示优惠详情、从我家过去的步行时间。谷歌搜索即可提炼整合出这些信息,并呈现在AI搜索概述中,可以为用户节省数个小时的时间。
今日起,谷歌AI搜索开始向美国用户推出,很快也向更多国家提供服务。
另外,在谷歌相册方面,Gemini也让照片搜索变得更容易。假设用户在停车场准备付款但想不起自己的车牌号,他可以简单地询问Gemini,基于之前拍的照片告诉用户车牌号码。谷歌透露,每天有超过60亿张照片上传到 Google 相册,现在,通过“询问照片”,用户可以以一种自然的方式询问你要找的东西,比如:“给我看我去过的每个国家公园的最佳照片。
此外,谷歌还带来了画圈搜索功能,即针对页面的文字信息/图片内容进行画圈,即可进行对应的搜索。
例如,在学习过程中,用户可以直接把不懂的问题圈出来,Gemini就会给用户一步步的问题解答,可谓是哪里不会圈哪里。
谷歌称,画圈搜索后续面可以处理公式、复杂图表,目前已经应用在1亿台设备上,谷歌计划把这个数字在年底翻倍。
此前谷歌已通过三星Galaxy S24系列的合作,展示画圈搜索能力,该功能目前已在全球1亿台安卓设备使用,并且作为安卓独占功能,该能力计划在今年底扩展到2亿台设备。
谷歌Workspace
谷歌Workspace以侧边栏形式使用Gemini 1.5 Pro模型提升生产力,将使跨应用程序的工作变得更加容易,例如AI Teammate可从Gmail、Meet等归纳、排序工作重要信息。
也可以在Gmail中追踪订单、识别相关收据,同时在谷歌Drive和Sheets中识别收据,并进行归纳整理,放到一个文件夹里,然后把其中关键信息整理进表格里。也可以通过数据问答让Gemini帮你分析开支。
Android系统与Gemini整合
自去年以来,手机芯片厂商高通和联发科都推出了支持端侧AI大模型运行的处理器平台,各大手机品牌厂商也纷纷推出了“AI手机”,但是在这过程中,需要芯片厂商、大模型厂商和手机品牌厂商三方的深度合作才能带来不错的体验。
现在,谷歌直接将其Gemini端侧模型与其新的Android系统进行整合,这将是首个内置端侧AI的移动操作系统,助力打造系统级的AI手机。
谷歌宣布,Android 15已融入谷歌Gemini大模型,支持诸如AI语音助理防诈骗、画圈搜索、理解图片给出更符合用户需求的答案等功能,
此外,Android 15还新增了多项功能,比如弱光增强功能,这是一种新的自动曝光模式,它与夜间模式相机创建静态图片的方式不同,后者会通过多张合成来提升夜景表现。
Android 15 Beta 2将在明天正式推出。
第六代TPU
谷歌十多年前意识到需要一款专门用于机器学习的芯片,因此2013年开始研发制造全球首款专为AI打造的加速器TPU v1(Tensor Processing Unit),并在2017年推出首款Cloud TPU。在此次开发者大会上,谷歌还发布了名为Trillium的第六代TPU,这也是迄今为止谷歌最高性能且最节能的TPU。
据介绍,与TPU v5e相比,Trillium单芯片峰值计算性能提升了4.7倍,其高带宽內存(HBM)容量和带宽都提升了1倍,芯片间互连网络(Interchip Interconnect,ICI)带宽也提高了1倍。Trillium能源效率也比TPU v5e高出了67%。
此外,Trillium配备第三代SparseCore,这是处理超大嵌体的专用加速器,用于处理进阶排名和推荐工作负载。
Trillium可在单个高带宽、低延迟的Pod扩展多达256个TPU。除了该Pod级别的可扩充性以外,Trillium借助多切片技术(Multislice technology)和Titanium智慧处理单元(Intelligence Processing Unit),还能扩充到数百个Pods。
Trillium将帮助谷歌更快训练下一代基础模型,以较短延迟时间和较低成本提供模型服务。
谷歌表示,TPU是其推出许多服务的最大功臣之一,要是少了它,如即时语音搜寻、相片物件辨识及互动式语言翻译,还有最先进的Gemini、Gemma、Imagen模型等无法顺利问世。
今年晚些时候,Trillium将提供给Google Cloud客户选用。此外,Trillium搭配专为数据中心设计的自研处理器Axion和NVIDIA Blackwell GPU,预计2025年投入数据中心。
编辑:芯智讯-浪客剑