12月27日,海外社交媒体平台X被来自中国的大模型DeepSeek-V3刷屏了,科技圈惊叹的点在于,这一模型能力对标头部模型,但训练的预算却非常低,“2048个GPU、2个月、近600万美元”,相比之下,GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练。
“Llama 3 405B 使用了3080万GPU小时,而DeepSeek-V3 看起来是一个更强大的模型,仅使用了280万GPU 小时(计算量约为十分之一)。”前Open AI 联合创始人、Tesla AI 团队负责人Andrej Karpathy在X上发文表示,如果该模型的优良表现能够得到广泛验证,这一模型将是在资源受限的情况下,在研究和工程方面让人印象深刻的一次展示。
12月26日晚,幻方量化旗下AI公司深度求索(DeepSeek)宣布,全新系列模型DeepSeek-V3上线并同步开源,API服务已同步更新,接口配置无需改动,登录官网(chat.deepseek.com)即可与最新版 V3 模型对话。当前版本的 DeepSeek-V3 暂不支持多模态输入输出。
具体来说,DeepSeek-V3是一个具有6710亿总参数的MoE(混合专家)模型,每token激活参数为370亿,在14.8万亿token上进行了预训练。
官方给出的数据显示,DeepSeek-V3 多项评测成绩超越了阿里通义的 Qwen2.5-72B 和Meta的Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
与此同时,DeepSeek表示,通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度提高了三倍,从20 TPS提高至60 TPS,API服务价格也同步做了调整,目前为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。但全新模型有45天的优惠价格体验期,为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。
这一价格在目前头部模型市场中有一定的竞争力。例如OpenAI的GPT 4o定价为输入:5美元/百万Token,输出:15美元/百万Token,加总成本是20美元,约合人民币145元。
DeepSeek此前一直走的是性价比路线,在训练上做了一些调整。据此次发布的技术报告,DeepSeek-V3仍然采用多头潜在注意力(MLA)以实现高效推理,并采用 DeepSeek MoE以实现经济的训练。这两种架构在 DeepSeek-V2中得到了验证,证明了它们在保持强大模型性能的同时,能够实现高效的训练和推理。
除了基本架构外,DeepSeek还实施了两项额外策略以进一步增强模型能力。首先是采用了无辅助损失的负载平衡策略,其次采用了多token预测训练目标,这可以提升评估基准的整体性能。
在已开源的论文中,DeepSeek强调了其训练成本较低——通过对算法、框架和硬件的优化协同设计,在预训练阶段,模型每训练1万亿token仅需要18万个GPU小时,即在团队配备2048个H800 GPU的集群上只需3.7天,也就是说,团队的预训练在不到2个月的时间内完成。
此外,加上用于扩展上下文长度所需的11.9万个 GPU小时和5000个 GPU小时的后训练,DeepSeek-V3完整训练消耗了278.8万个GPU小时。
假设H800 GPU的租用价格为每块GPU 2美元/小时,DeepSeek-V3的全部训练成本总计仅为557.6万美元。DeepSeek表示,该成本仅包括DeepSeek-V3的正式训练,不包括与先前在架构、算法或数据上的研究和消融实验相关的成本。
Karpathy在发文中肯定了这一训练成本的突破,他提到,作为参考,要达到V3这种级别的能力,通常需要约1.6万个GPU的计算集群。不仅如此,当前业界正在部署的集群规模甚至已经达到了10万个GPU。
但这是否意味着前沿LLM不需要大型 GPU 集群?在Karpathy看来,也并非如此,“但你必须确保不浪费你所拥有的资源,这看起来是一个很好的证明,表明在数据和算法方面还有很多工作要做” 。
Karpathy同时夸赞了DeepSeek在开源网站上公布的技术报告,“这是非常好且详细的技术报告,值得一读。”一位来自Menlo Venture的投资人也感慨,“53 页的技术论文是黄金”(53-page technical paper is GOLD)。
英伟达高级研究科学家Jim Fan在X上转发Karpathy的推文表示,资源限制是一件美好的事情。在残酷的人工智能竞争环境中,生存本能是取得突破的主要动力。“我关注 DeepSeek 很久了。去年他们推出了最好的开源模型之一,卓越的OSS模型给商业前沿 LLM 公司带来了巨大压力,迫使它们加快步伐。”
Lepton AI 创始人、 前阿里巴巴副总裁贾扬清也参与了这一话题的讨论,他认为,DeepSeek 的成功是简单的智慧和实用主义在起作用,在计算和人力有限的情况下,通过智能研究产生最佳结果。
此前DeepSeek一直被冠以“AI界拼多多”的名头,也是年中引发中国大模型价格战的源头。今年5月,DeepSeek发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅 1块钱,在当时约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。随后,字节、腾讯、百度、阿里等大厂纷纷降价,大模型价格战由此一触即发。
公开信息显示,DeepSeek成立于2023年7月,由知名量化资管巨头幻方量化创立,幻方量化创始人梁文峰在量化投资和高性能计算领域具有深厚的背景和丰富的经验。
在这次DeepSeek-V3发布时,大模型生态社区OpenCSG(开放传神)创始人陈冉第一时间关注到的是训练数据,他对第一财经表示,“一切都是数据,数据质量决定模型质量”,Deepseek-V3基于14万亿token的数据训练,这些数据应该非常有价值。