跨元旦直播前夕,小米(01810)董事长雷军千万元年薪挖角DeepSeek“天才AI少女”成为业内热点。
一财消息称,DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米,或供职于小米AI实验室,领导小米大模型团队。
公开信息显示,还在读研二时,罗福莉就在人工智能领域顶级国际会议ACL上发表8篇论文(其中2篇一作),后来登上知乎热搜而迅速走红。罗福莉毕业后进到阿里达摩院,从事预训练语言模型,主导开发了多语言预训练模型VECO。2022年她加入幻方量化,从事深度学习相关策略建模和算法研究,后又加入幻方量化创立的DeepSeek担任深度学习研究员,参与研发大模型DeepSeek-V2。
据知情人士称,雷军认为小米在大模型领域发力太晚,于是亲自挖人,重金招募能够领军小米大模型的人才,支付的薪酬水平在千万元级别。
当下,AI大模型已经成为科技公司竞争的核心,甚至是焦虑所在。而马斯克创立的xAI则进一步放大了这种焦虑。
上周,xAI官宣完成60亿美元新融资。兼之2024年5月B轮的60亿美元,xAI公开的总融资额已经累计120亿美元。而这家AI公司2023年7月份才成立。更早一些时间,另一家AI公司Anthropic从亚马逊(AMZN)获得了 40 亿美元融资,总融资额达到 137 亿美元。而 OpenAI 在10月份最新融资66 亿美元,总融资额增至 179 亿美元。
AI大模型并非新概念,但具有重大影响力和代表性的大模型主要出现在 2018 年之后。2020 年,OpenAI 公司推出了 GPT-3,在零样本学习任务上实现了巨大性能提升。2022 年 11 月,搭载了 GPT3.5 的 ChatGPT上市,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。2023 年 3 月,超大规模多模态预训练大模型 GPT-4 发布,具备了多模态理解与多类型内容生成能力。
对小米这样的公司来说,大模型能力将决定未来的竞争力。大模型会广泛应用于小米的手机及汽车等业务,包括语音交互、智能家居控制、生活助手等场景。包括华为、荣耀、vivo和oppo等手机公司都将大模型作为重要战略推出,比如华为的盘古大模型、vivo多模态大模型技术应用 “vivo 看见 - 蓝心升级版”等。
然而大模型虽好,却是个极为烧钱的事情,需要建设规模庞大的基础设施,为大模型提供充足的算力支持。xAI融资主要是为了快速扩展基础设施,比如建设了配备价值数十亿美元、10万个英伟达GPU的超级计算机Colossus。而xAI接下来计划把这一规模扩大到一倍,也就是20万个GPU。
对小米来说,这种资金规模巨大的投入方式很难跟进。据财报信息,小米预计 2024 年研发费用将达到 240 亿元,2025 年更将攀升至 300 亿元,从 2022 年到 2026 年的五年内,研发投入预计将超过 1000 亿元。
此前,小米在大模型方面实行的是合作与轻量化策略。与阿里云达成合作,强化旗下人工智能助手多模态 AI 生成能力;采取轻量化、本地部署的大模型策略,在重点场景上持续调优。
而近期大热的DeepSeek为雷军提供了一个更具性价比的大模型策略。DeepSeek被誉为“AI界拼多多”,性能上与顶尖模型相媲美,同时价格却远低于市场平均水平。
尤其是近期刚发布的全新超大规模模型——DeepSeek-V3。测试结果显示,DeepSeek-V3已超越诸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模型,甚至在性能上逼近 Anthropic 和 OpenAI 等封闭模型,大大缩小了开源和闭源 AI 之间的差距。
但按每 GPU 小时 2 美元的价格计算,DeepSeek-V3 的整体训练成本约为 557.6 万美元。这一数字远低于通常训练大型语言模型所需的数亿美元。例如,Llama-3.1 的训练成本估计超过 5 亿美元。
这也意味着DeepSeek的基础设施成本要远低于其他AI大模型。公开信息显示,幻方量化投资 2 亿元自主研发深度学习训练平台 “萤火一号”,并在 2021 年进一步投入 10 亿元用于 “萤火二号” 的研发,搭载了约 1 万张英伟达A100 显卡。在训练 DeepSeek-v3 模型时,DeepSeek仅用 2048 个英伟达H800 芯片运行 57 天,消耗 278 万个 GPU 小时。
据Andrej Karpathy的分析,按照以往经验,这种能力级别的大模型,通常需要接近1.6万张GPU,目前行业内的模型大多使用约10万张GPU。例如,Llama 3 405B模型消耗了3080万GPU小时。
从业务层面看,小米也许是国内最应该重金投入AI大模型的公司——小米可能拥有国内最丰富的AI入口。截至2024年Q3,小米AIoT平台连接的IoT设备超8.61亿,同比增长23.2%。如果AI大模型能够顺利融入如此之多的IoT设备,小米可以进一步加固自己的竞争门槛。
不过目前对大模型需求最强的业务可能是智能驾驶。自从去年以来,端到端大模型几乎成为了国内智能驾驶的标配,而且也的确大幅度提升了智能驾驶的水准。较晚入局造车的小米汽车虽然取得了不俗的成绩,但在智能驾驶方面相对保守,而且在智驾总里程方面也落后于业内主流公司。公开数据显示,小米SU7智驾里程已突破1亿公里,理想智驾总里程达到22亿公里,华为智驾总里程超过7.36亿公里,小鹏汽车智驾总里程已超过 5.41 亿公里。
“天才AI少女”能够借助“AI界拼多多”模型帮助小米汽车后来居上么?