当地时间12月26日,H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA(通用 AI 助手)基准排行榜上名列前茅,超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。
GAIA 基准上的这一显着成就表明,H2O.ai 正在主导通用 AI 代理的新兴领域,为该行业树立了新的黄金标准。
H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA(通用 AI 助手)基准排行榜上名列前茅,超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。
这一非凡的成就表明,H2O.ai 正在主导通用 AI 代理的新兴领域,为该行业树立了新的黄金标准。
GAIA 基准测试衡量 AI 系统在解决熟练人类需要大量时间、思考和精力的现实任务方面的有用程度。它包括数百个挑战,需要费力的研究、数据分析、文档处理和推理。持有学位的人类受访者的分数为 92%,需要几个人类日来解决所有 300 个测试集问题。
h2oGPTe Agent 通过提供始终如一的稳健性、准确性和效率超越了竞争对手,凸显了它为严重依赖熟练人工助理的企业用例做好了准备。
H2O.ai 创始人兼首席执行官 Sri Ambati 评论道:“今天我们宣布,AI 距离 GAIA 基准上人类水平的一般智能仅差 30%。GAIA 中的开放式问题是比 MMLU 更好的智力衡量标准,MMLU 依赖于多项选择。仅仅一年前,整个 Gen AI 生态系统在最严格的 AGI 基准测试之一的准确率上勉强通过十分之一。
“H2O.ai 的创客们构建了 h2oGPTe 代理 AI,它使用世界上最好的模型进行推理、多模态图像、视频、语言理解、代码生成和执行,以惊人的 15% 的准确率超越了 GAIA 基准测试,比 Google Deepmind 的研究人员使用相同的 Claude-3.5-Sonnet 创下的之前记录高出 3.5%。h2oGPTe 代理还击败了 Microsoft Research 的代理 Magentic-1,后者使用 OpenAI 的 o1 模型 27%。
“Agentic AI 正在蚕食 SaaS,随着 h2oGPTe Agentic AI 现已全面推出,我们所有的企业客户都可以解决各种复杂的商业和研究问题。”
H2O.ai 在 GAIA 上的成功凸显了其简单性和适应性的理念,包括:
用于解决复杂的实际任务的高级推理和规划。
跨文本、图像和音频的多模态理解,实现无缝的上下文理解。
集成 Python 执行和 DriverlessAI 等企业工具,用于预测分析和决策。
编辑:芯智讯-林子