OpenAl发布旗舰级AI模型GPT-4o,拥有实时语音和视觉能力

北京时间5月14日凌晨,OpenAI召开了春季发布会,推了名为GPT-4o(其中“o”代表“omni”,即“全能”)的全新旗舰人工智能模型。这是一个集文本、图片、视频、语音于一体的全能模型,将提供语音和文本输入和输出功能,能实时响应用户的需求,并通过语音来实时回答你,你可以随时打断它。同时,它还具有视觉能力,能识别物体并根据视觉做出快速的响应和回答,且具有非常强的逻辑推理能力。

OpenAI首席技术官Mira Murati表示,在API使用方面,GPT-4o的价格是GPT-4-turbo的一半,速度是GPT-4-turbo的两倍。

更为关键的是,GPT-4o向所有人免费开放,可实时跨文本、音频、视觉(图像与视频)进行推理。API定价只有GPT-4 Turbo的50%,速度达到GPT-4 Turbo的2倍。付费的ChatGPT Plus用户将获得5倍调用额度,并能最早访问其全新macOS桌面App和下一代语音及视频功能。

GPT-4o的主要能力:

全模态处理能力:能够接受并整合文本、音频和图像作为输入,并生成这三种类型任意组合的输出。这种能力极大地增强了与用户的交互体验,使得交流方式更加自然多样。

实时响应速度:GPT-4o在音频输入的响应时间上取得了显著提升,最快仅需2322毫秒,平均响应时间为320毫秒,接近人类对话的自然延迟,提供丝滑如真人的互动体验。

增强的图像与音频理解:相较于前代模型,GPT-4o在图像和音频理解方面尤为出色,能够更好地识别图像内容、理解语境中的声音,包括背景噪音、说话者的身份和情感,甚至能输出笑声、歌唱等情感丰富的音频。

个性化与定制化体验:用户可以根据自身需求调整GPT-4o的输出风格和内容,企业与开发者也能针对特定应用场景配置模型参数,以实现最佳效果。

高级对话管理:支持多轮对话管理,保持上下文的一致性,即便在复杂的对话场景下也能提供连贯、相关的回答,同时能处理如计划制定、问题解决等复杂任务。

多语言支持:在50多种语言中提高了质量和速度,让更多人能享受到GPT-4o的服务,进一步推动全球用户接入。

安全性与道德规范:引入更严格的内容审核和过滤系统,减少有害内容的生成,确保模型的使用符合伦理标准和法律要求。

API扩展与开发者工具:GPT-4o不仅在ChatGPT中可用,还被引入至API中,开发者能更便捷地构建AI应用,享受两倍于GPT-4 Turbo的速度,降低一半的成本,及五倍的速率限制提升。

无缝集成与用户界面更新:发布macOS的ChatGPT桌面应用,通过快捷键即时交互,支持截图和直接讨论,以及语音视频对话,用户界面的更新也更友好、对话化。

免费与广泛接入:GPT-4o级别智能服务的免费或低成本提供给所有用户,包括高级工具,体现了OpenAI普及高效AI工具的使命,让数亿用户受益。

模型评估

根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。

改进推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估收集的(在新窗口中打开)图书馆。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。(注:Llama3 400b(在新窗口中打开)还在训练中)

音频 ASR 性能 - GPT-4o 比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。

音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。

M3Exam - M3Exam 基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。(我们省略了斯瓦希里语和爪哇语的视力结果,因为这些语言的视力问题只有 5 个或更少。

视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。

LMSys 竞技场上测试了一个版本,即 im-also-a-good-gpt2-chatbot下面是测试结果 牛P啊,遥遥领先....

OpenAI CEO Sam Altman在其博客文章表示,AI工具免费或低成本提供给用户和新的语音(及视频)模式是前所未有的计算机界面体验。

编辑:芯智讯-林子   综合自网络

0

付费内容

查看我的付费内容