OpenAl发布旗舰级AI模型GPT-4o，拥有实时语音和视觉能力

2024年05月14日

北京时间5月14日凌晨，OpenAI召开了春季发布会，推了名为GPT-4o（其中“o”代表“omni”，即“全能”）的全新旗舰人工智能模型。这是一个集文本、图片、视频、语音于一体的全能模型，将提供语音和文本输入和输出功能，能实时响应用户的需求，并通过语音来实时回答你，你可以随时打断它。同时，它还具有视觉能力，能识别物体并根据视觉做出快速的响应和回答，且具有非常强的逻辑推理能力。

OpenAI首席技术官Mira Murati表示，在API使用方面，GPT-4o的价格是GPT-4-turbo的一半，速度是GPT-4-turbo的两倍。

更为关键的是，GPT-4o向所有人免费开放，可实时跨文本、音频、视觉（图像与视频）进行推理。API定价只有GPT-4 Turbo的50%，速度达到GPT-4 Turbo的2倍。付费的ChatGPT Plus用户将获得5倍调用额度，并能最早访问其全新macOS桌面App和下一代语音及视频功能。

GPT-4o的主要能力：

全模态处理能力：能够接受并整合文本、音频和图像作为输入，并生成这三种类型任意组合的输出。这种能力极大地增强了与用户的交互体验，使得交流方式更加自然多样。

实时响应速度：GPT-4o在音频输入的响应时间上取得了显著提升，最快仅需2322毫秒，平均响应时间为320毫秒，接近人类对话的自然延迟，提供丝滑如真人的互动体验。

增强的图像与音频理解：相较于前代模型，GPT-4o在图像和音频理解方面尤为出色，能够更好地识别图像内容、理解语境中的声音，包括背景噪音、说话者的身份和情感，甚至能输出笑声、歌唱等情感丰富的音频。

个性化与定制化体验：用户可以根据自身需求调整GPT-4o的输出风格和内容，企业与开发者也能针对特定应用场景配置模型参数，以实现最佳效果。

高级对话管理：支持多轮对话管理，保持上下文的一致性，即便在复杂的对话场景下也能提供连贯、相关的回答，同时能处理如计划制定、问题解决等复杂任务。

多语言支持：在50多种语言中提高了质量和速度，让更多人能享受到GPT-4o的服务，进一步推动全球用户接入。

安全性与道德规范：引入更严格的内容审核和过滤系统，减少有害内容的生成，确保模型的使用符合伦理标准和法律要求。

API扩展与开发者工具：GPT-4o不仅在ChatGPT中可用，还被引入至API中，开发者能更便捷地构建AI应用，享受两倍于GPT-4 Turbo的速度，降低一半的成本，及五倍的速率限制提升。

无缝集成与用户界面更新：发布macOS的ChatGPT桌面应用，通过快捷键即时交互，支持截图和直接讨论，以及语音视频对话，用户界面的更新也更友好、对话化。

免费与广泛接入：GPT-4o级别智能服务的免费或低成本提供给所有用户，包括高级工具，体现了OpenAI普及高效AI工具的使命，让数亿用户受益。

模型评估

根据传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。

改进推理 - GPT-4o 在 0-shot COT MMLU（常识问题）上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估收集的（在新窗口中打开）图书馆。此外，在传统的5-shot no-CoT MMLU上，GPT-4o创下了87.2%的新高分。（注：Llama3 400b（在新窗口中打开）还在训练中）