北京时间2024年7月23日23点,Meta 正式发布了其最新的开源大模型——Llama 3.1,包含了8B、70B 和 405B 三个版本,最大上下文长度提升到了128K。其中,405B 是其迄今最强大的模型,其性能评分甚至超过了 GPT-4o 125,和 Claude 3.5 不相上下。
Meta CEO扎克伯格的公开信也在官网贴出,他指出,开源大模型正在迅速缩小差距。去年,Llama 2 还只能与上一代闭源模型性能相当;今年,Llama 3 与最先进的模型相媲美,并在某些领域处于领先地位;从明年开始,预计未来的Llama模型将成为业内最先进的。同时,Meta AI宣布已接入Llama 3.1 405B,并推出AI图片编辑、AI编程等新功能。
根据基准测试显示,Meta Llama 3.1 405B在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和 winograd 等多项测试中均优于 GPT-4o,仅在 HumanEval 和 MMLU-social sciences 方面却落后于 GPT-4o。
值得注意的是,这些数据来自 Llama 3.1 的基本模型,意味着后续通过调整优化,可以进一步释放该模型的潜力,在上述基准测试中迈上更高的台阶。
采用超16000个H100 GPU训练
Meta在公开文档中介绍称,Llama 3.1将上下文长度扩展到 128K,增加了对八种语言的支持。
其中,Llama 3.1 405B在基于15万亿个Tokens、超16000个H100 GPU上进行训练,这是Meta有史以来第一个以这种规模进行训练的Llama模型。
Llama 3.1 405B 在常识、可操纵性、数学、工具使用和多语言翻译方面的最先进能力方面可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等顶级 AI 模型相媲美。
最新推出的Llama 3.1 8B 和 70B 模型的升级版本,支持相同的128K Tokens上下文窗口、多语言、改进的推理和最先进的工具使用,能够支持高级应用,例如长篇文本摘要、多语言对话代理和编码助手。
升级后的Llama 3.1 8B和70B模型,相比于同样参数大小的模型如Gemma2 9B、GPT3.5 Turbo等性能表现也更好。
另外,在现实场景中,Llama 3.1 405B进行了与人工评估的比较,总体表现优于GPT-4o和Claude 3.5 Sonnet。
Meta还对许可证进行了更改,允许开发人员使用 Llama 模型(包括 405B)的输出来改进其他模型。
目前,Meta已经在 llama.meta.com 和 Hugging Face 上提供这些模型供下载,用户可在合作伙伴平台生态系统上立即开发。
编辑:芯智讯-林子