性能比肩GPT-4o！国产AI大模型DeepSeek-V3发布：成本仅为GPT-4o二十分之一

2024年12月30日

12月26日，深度求索官方微信公众号推文称，旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。国外独立评测机构Artificial Analysis测试了DeepSeek-V3后表示，“DeepSeek-V3超越了迄今为止所有开源模型。”更为关键的是，该模型使用英伟达H800 GPU在短短两个月内就训练完成，并且仅花费了约558万美元。

据介绍，DeepSeek-V3为自研MoE模型，671B参数，激活37B，在14.8T token上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

针对DeepSeek-V3，独立评测网站Artificial Anlaysis就关键指标——包括质量、价格、性能（每秒生成的Token数以及首个Token生成时间）、上下文窗口等多方面——与其他人工智能模型进行对比，最终得出以下结论。

质量：DeepSeek-V3质量高于平均水平，各项评估得出的质量指数为80。

价格：DeepSeek-V3比平均价格更便宜，每100万个Token的价格为0.48美元。其中，输入Token价格为每100万个Token 0.27美元，输出Token价格为每100万个Token1.10 美元。

速度：DeepSeek-V3比平均速度慢，其输出速度为每秒87.5个Token。

延迟：DeepSeek-V3与平均水平相比延迟更高，接收首个Token（即首字响应时间）需要1.14秒。

上下文窗口：DeepSeek-V3的上下文窗口比平均水平小，其上下文窗口为13万个Token。

最终Artificial Anlaysis得出结论：DeepSeek-V3模型超越了迄今为止发布的所有开放权重模型，并且击败了OpenAI的GPT-4o（8月），并接近Anthropic的Claude 3.5 Sonnet（10月）。DeepSeek-V3的人工智能分析质量指数得分为80，领先于OpenAI的GPT-4o和Meta的Llama 3.3 70B等模型。目前唯一仍然领先于DeepSeek的模型是谷歌的Gemini 2.0 Flash和OpenAI的o1系列模型。领先于阿里巴巴的Qwen2.5 72B，DeepSeek现在是中国的AI领先者。

更重要的是，深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3，仅花费了约558万美元，仅为GPT-4o的二十分之一，资源运用效率极高。据外媒估计，Meta的大模型Llama-3.1的训练投资超过了5亿美元。

该消息一出，引发了海外AI圈热议。OpenAI创始成员Karpathy甚至对此称赞道：“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。DeepSeek-V3看起来比Llama-3-405B更强，训练消耗的算力却仅为后者的1/11。”

但是，有测试发现，DeepSeek-V3竟然声称自己是ChatGPT。一时间，“DeepSeek-V3是否在使用ChatGPT输出内容进行训练”的质疑声四起。

TechCrunch猜测称，深度求索可能用了包含GPT-4通过ChatGPT生成的文本的公共数据集。“如果DeepSeek-V3是用这些数据进行训练的，那么该模型可能已经记住了GPT-4的一些输出，现在正在逐字反刍它们。”

不过，DeepSeek-V3也并非是第一个错误识别自己的模型，谷歌的Gemini等有时也会声称是竞争对手的模型。例如，Gemini在普通话提示下称自己是百度的文心一言聊天机器人。造成这种情况的原因可能在于，AI公司在互联网上获取大量训练数据，但是，现如今的互联网本就充斥着各种各样用AI生产出来的数据。

编辑：芯智讯-浪客剑

英伟达因矿机生意被提集体诉讼

性能比肩GPT-4o！国产AI大模型DeepSeek-V3发布：成本仅为GPT-4o二十分之一

相关文章:

付费内容

性能比肩GPT-4o！国产AI大模型DeepSeek-V3发布：成本仅为GPT-4o二十分之一

相关文章:

付费内容

Trending now