Meta发布最强开源模型Llama 3.1 405B：采用超16000个H100 GPU训练，性能超GPT-4o – 芯智讯

Login

Meta发布最强开源模型Llama 3.1 405B：采用超16000个H100 GPU训练，性能超GPT-4o

2024年07月24日

北京时间2024年7月23日23点，Meta 正式发布了其最新的开源大模型——Llama 3.1，包含了8B、70B 和 405B 三个版本，最大上下文长度提升到了128K。其中，405B 是其迄今最强大的模型，其性能评分甚至超过了 GPT-4o 125，和 Claude 3.5 不相上下。

Meta CEO扎克伯格的公开信也在官网贴出，他指出，开源大模型正在迅速缩小差距。去年，Llama 2 还只能与上一代闭源模型性能相当；今年，Llama 3 与最先进的模型相媲美，并在某些领域处于领先地位；从明年开始，预计未来的Llama模型将成为业内最先进的。同时，Meta AI宣布已接入Llama 3.1 405B，并推出AI图片编辑、AI编程等新功能。

根据基准测试显示，Meta Llama 3.1 405B在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和 winograd 等多项测试中均优于 GPT-4o，仅在 HumanEval 和 MMLU-social sciences 方面却落后于 GPT-4o。

值得注意的是，这些数据来自 Llama 3.1 的基本模型，意味着后续通过调整优化，可以进一步释放该模型的潜力，在上述基准测试中迈上更高的台阶。

采用超16000个H100 GPU训练

Meta在公开文档中介绍称，Llama 3.1将上下文长度扩展到 128K，增加了对八种语言的支持。

其中，Llama 3.1 405B在基于15万亿个Tokens、超16000个H100 GPU上进行训练，这是Meta有史以来第一个以这种规模进行训练的Llama模型。

Llama 3.1 405B 在常识、可操纵性、数学、工具使用和多语言翻译方面的最先进能力方面可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等顶级 AI 模型相媲美。

最新推出的Llama 3.1 8B 和 70B 模型的升级版本，支持相同的128K Tokens上下文窗口、多语言、改进的推理和最先进的工具使用，能够支持高级应用，例如长篇文本摘要、多语言对话代理和编码助手。

升级后的Llama 3.1 8B和70B模型，相比于同样参数大小的模型如Gemma2 9B、GPT3.5 Turbo等性能表现也更好。

另外，在现实场景中，Llama 3.1 405B进行了与人工评估的比较，总体表现优于GPT-4o和Claude 3.5 Sonnet。

Meta还对许可证进行了更改，允许开发人员使用 Llama 模型（包括 405B）的输出来改进其他模型。

目前，Meta已经在 llama.meta.com 和 Hugging Face 上提供这些模型供下载，用户可在合作伙伴平台生态系统上立即开发。

编辑：芯智讯-林子

0

相关文章: