在OpenAI抢先发布了令人惊艳的AI大模型GPT-4o之后,北京时间5月15日凌晨,一年一度的Google I/O 2024开发者大会正式召开,发布了一系列的AI产品,包括:支持200万tokens超长上下文的Gemini 1.5 Pro改良版、轻量级模型Gemini 1.5 Flash、通用AI Agent、高质量文生图模型Imagen 3、视频生成模型Veo、AI音乐创作工具Music AI Sandbox、视觉语言开放模型PaliGemma等多款模型,以及第六代TPU芯片。同时,谷歌还宣布Android系统也将进入Gemini 时代。
Gemini 1.5 Pro
据谷歌介绍,其去年发布的原生多模态模型Gemini 1.5 Pro已有超过150万开发者使用,该模型可支持100万token上下文长度,可以跨文本、图像、视频、代码等进行推理。目前Gemini 1.5 Pro已经优先提供给Gemini Advanced订阅用户使用,支持超过150个国家的35种语言。
同时,谷歌还带来了Gemini 1.5 Pro的全新升级,目前已经可以支持200万token上下文长度,并提供开发者预览。
据介绍,通过数据和算法改进,升级版的Gemini 1.5 Pro增强了模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力,在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多项公共基准测试中取得了显著改进,在多项图像和视频理解基准测试中也实现了最先进性能。
Gemini 1.5 Flash
在此基础之上,谷歌还发布了新的轻量化模型Gemini 1.5 flash,这是一个面向端侧AI的模型,同样有100万和200万token的版本,在保持了高性能的同时,速度更快、延迟更低,同时其成本也低至了0.35美元每百万token。
谷歌“智能体”Project Astra和Gemini Live
谷歌DeepMind CEO哈萨比斯(Demis Hassabis)在此次的开发者大会上,公布了Project Astra计划,探索AI智能体(AI Agents)如何为日常生活提供帮助。
Gemini App新功能Gemini Live将结合Project Astra,可开启手机摄像头与Gemini助理一问一答,类似昨天OpenAI对于GPT-4o的功能的展示。
在演示过程中,测试人员与多模态Gemini模型所支持的AI智能体原型产品进行互动,利用Pixel手机摄像头对准目标,询问AI智能体看到什么、并回答问题,甚至还使用了搭载摄像头的智能眼镜原型机进行演示。DeepMind计划在AI Sandbox Area的环境下进行测试这项项目。
Gemini App还能设定自己的Gemini定制功能——Gems,例如建立个人专属的瑜伽老师、微积分老师。
视频模型Veo
之前OpenAI发布的视频模型Sora可谓是惊艳世人,现在谷歌也带来了他的视频大模型Veo。
据介绍,全新视频生成模型Veo能以文字转视频,可以生成70秒以上、1080p画质的短片,用户可以自定义各种风格模式。同时,Veo生成的视频镜头有不错的一致性,人、动物、物体的移动显得比较真实、自然。
图象模型Imagen 3
谷歌还公布了号称是目前最强大的图像生成模型的Imagen 3,其能够更好理解文本,创造出逼真图像,也能根据草图快速生成高分辨率图像。并且,谷歌Imagen 3还为图像生成带来了更强的细节表现力。
目前,Imagen 3可供 ImageFX 中的个人预览版和加入谷歌候补名单的创作者使用。
谷歌还宣布,Imagen 3即将登陆 Vertex AI——Google Cloud 的完全托管的统一开发平台,用于大规模利用模型,提供 150 多种第一方、开放和第三方基础模型,用于 使用企业级调优、接地、监控和部署功能自定义模型,以及构建 AI 代理。
Music AI Sandbox
谷歌DeepMind也与YouTube合作带来了AI音乐创作工具Music AI Sandbox,可以改变音乐的创作方式。
谷歌通过Music AI Sandbox与音乐家、词曲作者和制作人合作,可以直接把一段哼唱或者弹奏的灵感片段发给AI,生成一首歌或者一段真正的旋律。
谷歌AI搜索
Google为搜寻带来新的多步骤推理功能,它将一个问题分解成多个部分,并找出要解决的问题及按什么顺序解决,过去需要几分钟甚至几小时的搜寻和整理,未来只要几秒钟就能完成。
借助Gemini的搜索新功能,谷歌AI Overviews相比传统搜索引擎的结果,其将为用户呈现出完整的包括观点、见解、链接的答案。
谷歌透露,每天有超过60亿张照片上传到 Google 相册,现在,通过“询问照片”,用户可以以一种自然的方式询问你要找的东西,比如:“给我看我去过的每个国家公园的最佳照片。
谷歌Workspace
谷歌Workspace以侧边栏形式使用Gemini 1.5 Pro模型提升生产力,将使跨应用程序的工作变得更加容易,例如AI Teammate可从Gmail、Meet等归纳、排序工作重要信息。
也可以在Gmail中追踪订单、识别相关收据,同时在谷歌Drive和Sheets中识别收据,并进行归纳整理,放到一个文件夹里,然后把其中关键信息整理进表格里。也可以通过数据问答让Gemini帮你分析开支。
Android系统与Gemini整合
自去年以来,手机芯片厂商高通和联发科都推出了支持端侧AI大模型运行的处理器平台,各大手机品牌厂商也纷纷推出了“AI手机”,但是在这过程中,需要芯片厂商、大模型厂商和手机品牌厂商三方的深度合作才能带来不错的体验。
现在,谷歌直接将其Gemini端侧模型与其新的Android系统进行整合,这将是首个内置端侧AI的移动操作系统,助力打造系统级的AI手机。
谷歌宣布,Android 15已融入谷歌Gemini大模型,支持诸如AI语音助理防诈骗、画圈搜索、理解图片给出更符合用户需求的答案等功能,
此外,Android 15还新增了多项功能,比如弱光增强功能,这是一种新的自动曝光模式,它与夜间模式相机创建静态图片的方式不同,后者会通过多张合成来提升夜景表现。
Android 15 Beta 2将在明天正式推出。
第六代TPU
谷歌十多年前意识到需要一款专门用于机器学习的芯片,因此2013年开始研发制造全球首款专为AI打造的加速器TPU v1(Tensor Processing Unit),并在2017年推出首款Cloud TPU。在此次开发者大会上,谷歌还发布了名为Trillium的第六代TPU,这也是迄今为止谷歌最高性能且最节能的TPU。
据介绍,与TPU v5e相比,Trillium单芯片峰值计算性能提升了4.7倍,其高带宽內存(HBM)容量和带宽都提升了1倍,芯片间互连网络(Interchip Interconnect,ICI)带宽也提高了1倍。Trillium能源效率也比TPU v5e高出了67%。
此外,Trillium配备第三代SparseCore,这是处理超大嵌体的专用加速器,用于处理进阶排名和推荐工作负载。
Trillium可在单个高带宽、低延迟的Pod扩展多达256个TPU。除了该Pod级别的可扩充性以外,Trillium借助多切片技术(Multislice technology)和Titanium智慧处理单元(Intelligence Processing Unit),还能扩充到数百个Pods。
Trillium将帮助谷歌更快训练下一代基础模型,以较短延迟时间和较低成本提供模型服务。
谷歌表示,TPU是其推出许多服务的最大功臣之一,要是少了它,如即时语音搜寻、相片物件辨识及互动式语言翻译,还有最先进的Gemini、Gemma、Imagen模型等无法顺利问世。
今年晚些时候,Trillium将提供给Google Cloud客户选用。此外,Trillium搭配专为数据中心设计的自研处理器Axion和NVIDIA Blackwell GPU,预计2025年投入数据中心。
编辑:芯智讯-浪客剑