谷歌发布多款大模型及第六代TPU，Android系统也将内置端侧模型！

2024年05月15日

在OpenAI抢先发布了令人惊艳的AI大模型GPT-4o之后，北京时间5月15日凌晨，一年一度的Google I/O 2024开发者大会正式召开，发布了一系列的AI产品，包括：支持200万tokens超长上下文的Gemini 1.5 Pro改良版、轻量级模型Gemini 1.5 Flash、通用AI Agent、高质量文生图模型Imagen 3、视频生成模型Veo、AI音乐创作工具Music AI Sandbox、视觉语言开放模型PaliGemma等多款模型，以及第六代TPU芯片。同时，谷歌还宣布Android系统也将进入Gemini 时代。

Gemini 1.5 Pro

据谷歌介绍，其去年发布的原生多模态模型Gemini 1.5 Pro已有超过150万开发者使用，该模型可支持100万token上下文长度，可以跨文本、图像、视频、代码等进行推理。目前Gemini 1.5 Pro已经优先提供给Gemini Advanced订阅用户使用，支持超过150个国家的35种语言。

同时，谷歌还带来了Gemini 1.5 Pro的全新升级，目前已经可以支持200万token上下文长度，并提供开发者预览。

据介绍，通过数据和算法改进，升级版的Gemini 1.5 Pro增强了模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力，在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多项公共基准测试中取得了显著改进，在多项图像和视频理解基准测试中也实现了最先进性能。

Gemini 1.5 Flash

在此基础之上，谷歌还发布了新的轻量化模型Gemini 1.5 flash，这是一个面向端侧AI的模型，同样有100万和200万token的版本，在保持了高性能的同时，速度更快、延迟更低，同时其成本也低至了0.35美元每百万token。

谷歌“智能体”Project Astra和Gemini Live

谷歌DeepMind CEO哈萨比斯（Demis Hassabis）在此次的开发者大会上，公布了Project Astra计划，探索AI智能体（AI Agents）如何为日常生活提供帮助。

Gemini App新功能Gemini Live将结合Project Astra，可开启手机摄像头与Gemini助理一问一答，类似昨天OpenAI对于GPT-4o的功能的展示。

在演示过程中，测试人员与多模态Gemini模型所支持的AI智能体原型产品进行互动，利用Pixel手机摄像头对准目标，询问AI智能体看到什么、并回答问题，甚至还使用了搭载摄像头的智能眼镜原型机进行演示。DeepMind计划在AI Sandbox Area的环境下进行测试这项项目。

Gemini App还能设定自己的Gemini定制功能——Gems，例如建立个人专属的瑜伽老师、微积分老师。

视频模型Veo

之前OpenAI发布的视频模型Sora可谓是惊艳世人，现在谷歌也带来了他的视频大模型Veo。

据介绍，全新视频生成模型Veo能以文字转视频，可以生成70秒以上、1080p画质的短片，用户可以自定义各种风格模式。同时，Veo生成的视频镜头有不错的一致性，人、动物、物体的移动显得比较真实、自然。

谷歌表示，Veo是他们在视频生成领域技术的集大成制作，包含了多年来谷歌开发的生成查询网络（GQN）、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere等各类技术。

在演示视频中，有电影导演也用到了Veo，帮他们把灵感变成现实。该电影导演说，AI可以帮他们快速发现构思中的错误并快速纠正，提高效率。

谷歌称，实现这些，需要让AI模拟世界的物理法则，这是很关键的。预期将Veo成为OpenAI Sora的强有力的竞争对手。

目前Veo尚未完全开放，用户可加入实验室等待名单，在新实验工具VideoFX中尝试。

图象模型Imagen 3

谷歌还公布了号称是目前最强大的图像生成模型的Imagen 3，其能够更好理解文本，创造出逼真图像，也能根据草图快速生成高分辨率图像。并且，谷歌Imagen 3还为图像生成带来了更强的细节表现力。

目前，Imagen 3可供 ImageFX 中的个人预览版和加入谷歌候补名单的创作者使用。

谷歌还宣布，Imagen 3即将登陆 Vertex AI——Google Cloud 的完全托管的统一开发平台，用于大规模利用模型，提供 150 多种第一方、开放和第三方基础模型，用于使用企业级调优、接地、监控和部署功能自定义模型，以及构建 AI 代理。

Music AI Sandbox

谷歌DeepMind也与YouTube合作带来了AI音乐创作工具Music AI Sandbox，可以改变音乐的创作方式。

谷歌通过Music AI Sandbox与音乐家、词曲作者和制作人合作，可以直接把一段哼唱或者弹奏的灵感片段发给AI，生成一首歌或者一段真正的旋律。

视觉语言开放模型PaliGemma

谷歌此前于2月推出开源模型Gemma，包含7B、2B两种参数规模，在各大开源社区下载量已累计数百万次。

此次，谷歌发布其首个视觉语言开放模型PaliGemma，基于SigLIP视觉模型和Gemma语言模型等开放组件构建，用于在各种视觉语言任务上实现一流的微调性能，包括图像和短视频字幕、视觉问答、理解图像中的文本、对象检测和对象分割等。

Gemma 2预告

谷歌还透露，将在未来几周正式发布一个有270亿个参数的Gemma 2模型版本，性能可媲美Meta Llama 3 70B，尺寸不到Llama 3 70B的一半，可在NVIDIA GPUs或Vertex AI单个TPU主机上运行。

目前Gemma 2还在进行预训练。下图展示了最新的Gemma 2检查点的性能以及基准预训练指标。

谷歌AI搜索

Google为搜寻带来新的多步骤推理功能，它将一个问题分解成多个部分，并找出要解决的问题及按什么顺序解决，过去需要几分钟甚至几小时的搜寻和整理，未来只要几秒钟就能完成。

借助Gemini的搜索新功能，谷歌AI Overviews相比传统搜索引擎的结果，其将为用户呈现出完整的包括观点、见解、链接的答案。

谷歌搜索负责人Liz Reid强调，谷歌的AI搜索概述有三大独特优势：实时信息、排名和质量体系、Gemini模型能力。

例如，用户想找一个合适的普拉提工作室，需要同时考虑时间、价格、距离等因素。用户可以在谷歌搜索输入：在波士顿找到最好的瑜伽工作室，并显示优惠详情、从我家过去的步行时间。谷歌搜索即可提炼整合出这些信息，并呈现在AI搜索概述中，可以为用户节省数个小时的时间。

今日起，谷歌AI搜索开始向美国用户推出，很快也向更多国家提供服务。

另外，在谷歌相册方面，Gemini也让照片搜索变得更容易。假设用户在停车场准备付款但想不起自己的车牌号，他可以简单地询问Gemini，基于之前拍的照片告诉用户车牌号码。谷歌透露，每天有超过60亿张照片上传到 Google 相册，现在，通过“询问照片”，用户可以以一种自然的方式询问你要找的东西，比如：“给我看我去过的每个国家公园的最佳照片。

此外，谷歌还带来了画圈搜索功能，即针对页面的文字信息/图片内容进行画圈，即可进行对应的搜索。

例如，在学习过程中，用户可以直接把不懂的问题圈出来，Gemini就会给用户一步步的问题解答，可谓是哪里不会圈哪里。

谷歌称，画圈搜索后续面可以处理公式、复杂图表，目前已经应用在1亿台设备上，谷歌计划把这个数字在年底翻倍。

此前谷歌已通过三星Galaxy S24系列的合作，展示画圈搜索能力，该功能目前已在全球1亿台安卓设备使用，并且作为安卓独占功能，该能力计划在今年底扩展到2亿台设备。

谷歌Workspace

谷歌Workspace以侧边栏形式使用Gemini 1.5 Pro模型提升生产力，将使跨应用程序的工作变得更加容易，例如AI Teammate可从Gmail、Meet等归纳、排序工作重要信息。

也可以在Gmail中追踪订单、识别相关收据，同时在谷歌Drive和Sheets中识别收据，并进行归纳整理，放到一个文件夹里，然后把其中关键信息整理进表格里。也可以通过数据问答让Gemini帮你分析开支。

Android系统与Gemini整合

自去年以来，手机芯片厂商高通和联发科都推出了支持端侧AI大模型运行的处理器平台，各大手机品牌厂商也纷纷推出了“AI手机”，但是在这过程中，需要芯片厂商、大模型厂商和手机品牌厂商三方的深度合作才能带来不错的体验。

现在，谷歌直接将其Gemini端侧模型与其新的Android系统进行整合，这将是首个内置端侧AI的移动操作系统，助力打造系统级的AI手机。

谷歌宣布，Android 15已融入谷歌Gemini大模型，支持诸如AI语音助理防诈骗、画圈搜索、理解图片给出更符合用户需求的答案等功能，

此外，Android 15还新增了多项功能，比如弱光增强功能，这是一种新的自动曝光模式，它与夜间模式相机创建静态图片的方式不同，后者会通过多张合成来提升夜景表现。

Android 15 Beta 2将在明天正式推出。

第六代TPU

谷歌十多年前意识到需要一款专门用于机器学习的芯片，因此2013年开始研发制造全球首款专为AI打造的加速器TPU v1（Tensor Processing Unit），并在2017年推出首款Cloud TPU。在此次开发者大会上，谷歌还发布了名为Trillium的第六代TPU，这也是迄今为止谷歌最高性能且最节能的TPU。

据介绍，与TPU v5e相比，Trillium单芯片峰值计算性能提升了4.7倍，其高带宽內存（HBM）容量和带宽都提升了1倍，芯片间互连网络（Interchip Interconnect，ICI）带宽也提高了1倍。Trillium能源效率也比TPU v5e高出了67%。

此外，Trillium配备第三代SparseCore，这是处理超大嵌体的专用加速器，用于处理进阶排名和推荐工作负载。

Trillium可在单个高带宽、低延迟的Pod扩展多达256个TPU。除了该Pod级别的可扩充性以外，Trillium借助多切片技术（Multislice technology）和Titanium智慧处理单元（Intelligence Processing Unit），还能扩充到数百个Pods。

Trillium将帮助谷歌更快训练下一代基础模型，以较短延迟时间和较低成本提供模型服务。

谷歌表示，TPU是其推出许多服务的最大功臣之一，要是少了它，如即时语音搜寻、相片物件辨识及互动式语言翻译，还有最先进的Gemini、Gemma、Imagen模型等无法顺利问世。

今年晚些时候，Trillium将提供给Google Cloud客户选用。此外，Trillium搭配专为数据中心设计的自研处理器Axion和NVIDIA Blackwell GPU，预计2025年投入数据中心。

编辑：芯智讯-浪客剑

谷歌发布多款大模型及第六代TPU，Android系统也将内置端侧模型！

付费内容

Trending now