DeepSeek再次爆火。
近日,国内AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3,同时宣布开源。在多项基准测试中,V3的成绩超越了主流开源模型,并和世界顶尖的闭源模型不分伯仲。
更重要的是,V3的训练成本极低,仅为GPT-4o的二十分之一;售价也低,输入+输出价格约为GPT-4o的十分之一。不过其目前不支持多模态输入输出。
DeepSeek是量化资管公司幻方旗下企业,成立于2023年7月。
被冠以“AI界高效低价典范”的DeepSeek,给当前的人工智能技术与发展路径提供了一个新的方向,贡献了AI竞赛中的中国力量。
V3不仅在人工智能界产生轰动效应,也因它的母公司是知名量化基金公司,而在资本市场引发热烈讨论。
另据报道,近期小米正在搭建GPU万卡集群,雷军亲自以千万年薪挖来了DeepSeek-V2关键开发人员之一的95后罗福莉,后者被誉为“AI天才少女”。
DeepSeek的“暴力美学”
多个实测表明,数学基准(MATH500)和AIME2024测试方面,V3超越了当前国际主流大模型Llama3.1-405B、Claude-3.5-Sonnet和GPT-4o;代码能力(Codeforces基准),比国外主流大模型高出约30分;软件工程(SWE-benchVerified)和知识问答方面,略逊于Claude-3.5-Sonnet。
因此,DeepSeek的技术论文自豪地宣称,“综合评估表明,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
更重要的是,这一成就,是在极低的训练成本下取得的。
DeepSeek在其53页的技术论文披露:“我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。结合119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。”
Anthropic首席执行官达里奥·阿莫迪此前透露,GPT-4o的模型训练成本约为1亿美元。而仅仅是训练一个7B的Llama2,就要花费76万美元。
也就是说,DeepSeek-V3的训练成本仅为同性能模型的十几分之一。这让整个AI界都为之震惊。
据报道,仍处于研发过程中的GPT-5,至少已进行过两轮训练,每轮训练耗时数月,仅一轮计算成本就接近5亿美元。一年半过去,GPT-5仍未问世。这意味着,新一代通用大模型的训练成本已达到十多亿美元甚至更高。马斯克旗下的xAI刚完成60亿美元融资,重要开支之一是将数据中心Colossus的规模扩大一倍,GPU数量达到20万颗。
按照这种训练路径,未来三年内,AI大模型的训练成本将上升至100亿美元甚至上不封顶。正是在这种背景之下,一段时间以来AI界产生了对Scalinglaw的质疑。
GPT-5难产,OpenAI转向了另一条发展路径:推理模型。并且很快产生成果:令人惊艳的o1推理模型,以及刚发布的o3推理模型。而o3的卓越表现,让部分专家惊呼,在前往AGI的路上已经没有了障碍。
人工智能初创公司深受启迪,并紧紧跟随。前不久刚从硅谷考察回来的零一万物创始人李开复说,过去大家觉得预训练做好就够了,一年以后(o1出现后)发现Posttrain(后训练)也同样重要。他透露说,很多AI公司都在向推理模型方面发展,5个月以后会有不少类似o1模型的能力出现在各个模型公司,包括零一万物,都在往o1方向狂奔。
但DeepSeek-V3的出现,提供了新的可能。更短的时间,更高的效率,更低的成本,达到同等的水平,通用大语言模型的发展路径选择上,贡献了“中国版本”。
新的变化已经发生
事实上,今年5月6日,DeepSeek发布DeepSeek-V2开源MoE模型,就以其高效性能在全球AI界掀起了一波热度。而其API接口价格与同类产品相比断崖式定为每百万tokens输入1元、输出2元(32K上下文),仅为GPT-4-Turbo的近百分之一。
“价格屠夫”的杀入,令智谱AI、字节跳动、阿里云、百度、腾讯云旗下大模型随后不得不跟进降价。而且腾讯和百度宣布几款大模型产品免费。虽然有人将DeepSeek-V2称为“AI界的拼多多”,但这个比喻不太恰当,因为二者几乎没有共性。
DeepSeek-V3的API定价提高到输入2元/Mtokens,输出为8元/Mtokens(45天的价格优惠期后),虽然比V2大幅上涨,但也只相当于Claude-3.5-Sonnet费用的1/53,后者每百万tokens输入3美元、输出15美元。
根据记者近两天对AI从业者的采访,DeepSeek-V3的出现,为业界提供了新的启发。
其一,大模型研发,存在多种可能的发展路径。
ChatGPT走的是大参数、大算力、大投入的路子,对算力和资金的要求极高,这种资源消耗是绝大多数创业公司无法支撑的。即使是OpenAI、Anthropic融资较丰沛的公司,也面临投资回报的商业化难题。
推理模型是另一条路子。o1、o3的成果,证明这条路也是可行的。但同样,它也是建立于相对高昂的算力和资金成本基础上,尤其是算力。
DeepSeek-V3是第三条路径。与当前大模型训练动辄要求万卡集成相比,它只用2000张A100GPU训练,就实现了与GPT-4o和Claude-3.5-Sonnet几乎等效的成果,不能不令人敬佩。
一位在硅谷从事AI研究的华人工程师告诉21世纪经济报道记者,不排除还有更多的路径选择,比如V3的MLA架构、MoESparse结构与o3的推理能力相结合,可能产生新的大模型范式。如果实现,那将是令人惊异的。
其二,人工智能竞争,中国不仅仅是跟随者,而是正在大幅提升创新能力。
其实V2发布时,硅谷就惊讶地称之为“来自东方的神秘力量”。DeepSeek创始人梁文锋今年7月在接受媒体采访时说,硅谷习惯于将中国AI公司视为follow的角色,当一个中国公司以创新贡献者的身份,加入到他们游戏里去,而且表现优异时,他们就很震惊。
梁文锋认为,更多的投入并不一定产生更多的创新,否则大厂可以把所有的创新包揽了。研究和技术创新将永远是DeepSeek第一优先级。值得注意的是,根据业内专家测算,DeepSeek在V2、V3上并不亏钱。
V3获得硅谷一批知名AI大佬的点赞。LeptonAI创始人、阿里巴巴原副总裁贾扬清表示,DeepSeek是智慧和实用主义的体现:在有限的计算资源和人力条件下,通过聪明的研究产生最好的结果。这是一句相当中肯的评价。
无独有偶。宇树科技近日发布最新的UnitreeB2-W机器狗产品视频:托马斯全旋、侧空翻、360°跳跃转体、2.8米凌空飞跃,甚至能驮着一名成年男子稳步行走。这几天,技术讨论园区里到处可见对这家前沿中国机器人企业的欢呼声,有评论称其技能足以“吊打”当今最先进的机器人公司波士顿动力。上周还在A股市场掀起了一阵“宇树科技概念”上涨潮。
其三,创新从来不是单维度、单向度的,AI颠覆式创新正在成为可能。
研发出ChatGPT的OpenAI确实了不起,它开启了人工智能的新一轮浪潮。但OpenAI也不是神,也有发展方向的障碍,有融资的难题,有路径选择的犹豫。
过去两三年,AI界一个流行的看法是,如果说硅谷企业擅长从0到1,那我们则擅长从1到10,因为中国有宽广的应用市场。但梁文锋认为,当前阶段仍是AI技术创新的爆发期,而不是应用的爆发期。
从理性的角度,需要承认我们与OpenAI、Anthropic、DeepMind这些世界先进AI公司仍存在较大的差距。比如,即使是代表闭源大模型最前沿水平的V3,多项性能表现与GPT-4o相近,那也是后者7个月前的技术水平;而OpenAI这几个月已连续推出o1、o3这类新的“变异”物种。更何况,其他大多数的模型产品,放在多语言、多模态的国际视野看,差距要更大。
但这一轮人工智能浪潮之所以更加令人期待,就是因为,它带来的革命性想象力甚至要超越互联网之于传统经济的变革力量。正如梁文锋所说,中国产业结构的调整升级,会更依赖硬核科技的创新。在半导体、大模型等领域,远未触达技术天花板,前所未有的机会在等待着中国企业,那些带来AI颠覆性创新产品或方案模式的公司,就非常可能成为下一个伟大的企业。
前述硅谷华人工程师感慨地说,再伟大的企业,都不敢止步不前,坐享其成。
5年前,谁会想到,英特尔会沦落到传闻要被收购的命运?而今天别看英伟达如日中天、GPU供不应求,但如果量子芯片大规模商用的时间表大大缩短,或者像V3这样不再依赖于万卡集成做训练研发,而它继续固守原有发展路径,那么所谓的“英伟达泡沫”提前破灭也是完全可能发生的。