就在DeepSeek(深度求索)发布V3几天前,OpenAI首席执行官萨姆·奥特曼在一场采访中,谈到了中美在AI领域的竞争。
一方面,奥特曼屡屡强调OpenAI在AI领域的主导性和领先性,同时呼吁在美国完全本土化AI产业链,包括生产芯片、建设足够多的能源,改变数据中心建设模式,建立非常昂贵且复杂的供应链和基础设施等。
但另一方面,奥特曼却又话风一转,声称美国应该在AI领域与中国紧密合作。而这一言论,对于封禁中国大陆IP最为激进的OpenAI来说,极具讽刺意味。
曾经宛若AI领域的大神,如今的 OpenAI 却因为模型越来越闭塞,而被科技圈戏谑为“CloseAI(关闭AI)”。
几天之后,来自中国的 DeepSeek V3 如石破天惊一般问世。在高端芯片禁运的情况下, DeepSeek V3 靠着往年囤积的“阉割版”H卡,用区区五百万美元,在惊人的不到三百万 H800 GPU 小时里完成了预训练,获得了聊天机器人竞技场(Chatbot Arena)随机基准(Benchmark)测试第七、开源模型排名第一的成绩。
高效训练带来的结果是,DeepSeek-V3几乎有着媲美 Claude 3.5 Sonnet 的数学和编程能力,却能提供后者五十三分之一的使用价格。
几乎在同时,AI舆论天平开始摇摆——海外互联网上,GPT5研发遭遇瓶颈的质疑再度被提及,人们惊叹“对中国芯片禁运无意义”。
“AI卖铲人”英伟达的股价也在2025年出现了剧烈的下跌,冥冥之中似乎与DeepSeek-V3的出现有关。
一时间,整个AI产业的经济模型,都在DeepSeek-V3的出现后,悄然动摇。
神秘力量崛起
不知从何时开始,AI界开始用“万卡集群”来描述步入大模型的门槛——DeepSeek-V3出现前,聊天机器人竞技场头部模型企业掌握的GPU集群清一色在五位数以上,万卡就像是AI梭哈局里的“验资证明”。
随后便是 DeepSeek-V3 的出现,AI在当前的发展模型中,突然长出了一个不符合发展规律的“奇点”。
所有人都试图理解,为什么它的预训练那么快,应用接口价格那么的便宜。许多人都提到了MLA,MoE、FP8三大创新。
然而,除了MLA为 DeepSeek 公司在 V2 时期抛出的原创概念,MoE、FP8等技术都并非原生。
比如 MoE (集成本地专家)架构——形象的说法是他将全人类的问题进行分类,通过分类来降低每个问题需要激活的参数。MoE的概念最早诞生在1991年,但到2023年才由Mistral AI最先采用。之后,它几乎成为了所有新版大模型的标配工程,每家的 MoE 架构都有自己的特色。
FP8更是英伟达早在2022年发布H卡时就预言过的浮点格式,其理论极限倍速是传统FP16的两倍。但具体能提高多少?其实很难,至少在 DeepSeek 之前,很少有大模型团队热衷于通过FP8突破算力瓶颈。
仅从结果来看,DeepSeek 的大部分创新都建立在其他先驱的基础之上,但对创新工程技术应用所达到的程度,却依然令人匪夷所思。
因此业内人都有一个共识,DeepSeek 强大,来源于其神秘工程团队。
“他们是一只非常精锐的中国团队——就他们构建强大语言的能力而言,我会把他们放在Mistral和OpenAI/DeepMind团队中间位置。”前DeepMind工程师,知名科技博主Aleksa Gordic(亚历克萨·戈迪奇)在社交媒体上惊叹。
AI新格局重构
《三体:黑暗森林》中有这样一个认知,科技的发展并不是阶梯式的,技术爆发往往以不期而至的方式到来。
在AI这个领域,技术爆炸的时间节点也非常难以预测。
在DeepSeek-V3发布前,上一个在业界公认取得如此多创新的,还是2024年12月Meta发布的 Llama3.1 405B。
而再上一个突破大概发生在2024年6月份,Anthropic 公司推出编程专长大模型 Claude 3.5 Sonnet,再往前就是当年5月份 OpenAI 推出的 ChatGPT4.0。
即便对于中国大模型而言,上一轮出圈的Kimi,与DeepSeek-V3发布也才隔了不到一年。
与算力、工程能力同步迭代的海外大模型企业不同,DeepSeek受制于芯片禁运的束缚,以两个数量级的成本优势,宣告着工程能力的巨大差异,甚至可能导致现有AI经济模型完全重构……
就在DeepSeek-V3发布后不久,有人在使用中发现 DeepSeek-V3 在一次问答中把自己称为“ChatGPT”。
这个被称之为“自我认知错误”的“BUG”,其实普遍发生在许多大模型的推理结果中,显示着当今时代数据污染的普遍存在,以及大模型之间互相借鉴越来越频繁。
而不管是开源的 DeepSeek,还是闭源的 OpenAI,AI数据与工程技术的互相借鉴,几乎是不可能被封锁的。
有些魔幻现实的是,由于DeepSeek-V3 完全的开源,在可以预见的,甚至几乎确定不会太久的未来,DeepSeek-V3 的巨大优势,必然会被后来的效仿者、创新者所抹平,超越。
但既然选择了开源,就代表了 DeepSeek 完全接受这一点,并认为自己还能做出更好的。
2023年,DeepSeek 实际控制人梁文锋在接受采访时也表达了类似观点:
“无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有OpenAI指路,又都基于公开论文和代码……从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。”
创新驱动力
既然AI企业无法通过闭源获得优势,那么唯一值得信赖的便是团队本身了。
回顾梁文锋的采访,其大量的谈话落在了团队建设上,鼓励创新上。着眼能力,淡化履历,看中好奇心驱动。
“很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。”梁文锋在采访中表示。
经典的企业管理认为,好的制度能让企业自行运转,不论岗位上是谁,都能像螺钉一样各司其职。
而梁文锋却认为,由幻方量化积累的资本和算力底蕴,可以让 DeepSeek 暂时忘却商业化,并保持企业纯粹的创新文化。
寄托的AGI发展的人类大计,最后仍要取决于微观引领者的企业文化和团队建设,这一巨大的反差背后,却颇有返璞归真的意味。
几乎就在12月份之前,GPT5迟迟无法落地的消息,让许多AI从业者存在这样一个认知:“AI工程能力似乎已经接近了瓶颈。而面对越来越难清洗的数据和芯片、电力的制约,AGI已经撞上了南墙。”
就像早在十九世纪就有人说,“物理学的大厦已经完成了,后人只要做修缮装饰的工作”。
但 DeepSeek 显然打破了瓶颈认知,并告诉我们,即便是从工程能力迭代的角度,AI能力的瓶颈,仍然远远没有到来。
“我们希望更多人,哪怕一个小 App 都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。”梁文锋说道。
而若未来真如他所说,唯一能确定的是,算力将不再成为困扰AI时代的瓶颈。包括当下“AI卖水人”经济模型,可能也会顺势完成重构。