深度 | 挖角DeepSeek“天才AI少女” 雷军想做什么？_小米集团-W(hk01810)股吧

股吧首页 > 小米集团-W吧 > 正文

最近访问：

小米集团-W吧

返回小米集团-W吧>>

- 重要股东股权质押数据全览

小米集团-W资讯

发表于 2024-12-31 19:02:00 股吧网页版

深度 | 挖角DeepSeek“天才AI少女” 雷军想做什么？

来源：财中社

　　跨元旦直播前夕，小米（01810）董事长雷军千万元年薪挖角DeepSeek“天才AI少女”成为业内热点。

　　一财消息称，DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米，或供职于小米AI实验室，领导小米大模型团队。

　　公开信息显示，还在读研二时，罗福莉就在人工智能领域顶级国际会议ACL上发表8篇论文（其中2篇一作），后来登上知乎热搜而迅速走红。罗福莉毕业后进到阿里达摩院，从事预训练语言模型，主导开发了多语言预训练模型VECO。2022年她加入幻方量化，从事深度学习相关策略建模和算法研究，后又加入幻方量化创立的DeepSeek担任深度学习研究员，参与研发大模型DeepSeek-V2。

　　据知情人士称，雷军认为小米在大模型领域发力太晚，于是亲自挖人，重金招募能够领军小米大模型的人才，支付的薪酬水平在千万元级别。

　　当下，AI大模型已经成为科技公司竞争的核心，甚至是焦虑所在。而马斯克创立的xAI则进一步放大了这种焦虑。

　　上周，xAI官宣完成60亿美元新融资。兼之2024年5月B轮的60亿美元，xAI公开的总融资额已经累计120亿美元。而这家AI公司2023年7月份才成立。更早一些时间，另一家AI公司Anthropic从亚马逊（AMZN）获得了 40 亿美元融资，总融资额达到 137 亿美元。而 OpenAI 在10月份最新融资66 亿美元，总融资额增至 179 亿美元。

　　AI大模型并非新概念，但具有重大影响力和代表性的大模型主要出现在 2018 年之后。2020 年，OpenAI 公司推出了 GPT-3，在零样本学习任务上实现了巨大性能提升。2022 年 11 月，搭载了 GPT3.5 的 ChatGPT上市，凭借逼真的自然语言交互与多场景内容生成能力，迅速引爆互联网。2023 年 3 月，超大规模多模态预训练大模型 GPT-4 发布，具备了多模态理解与多类型内容生成能力。

　　对小米这样的公司来说，大模型能力将决定未来的竞争力。大模型会广泛应用于小米的手机及汽车等业务，包括语音交互、智能家居控制、生活助手等场景。包括华为、荣耀、vivo和oppo等手机公司都将大模型作为重要战略推出，比如华为的盘古大模型、vivo多模态大模型技术应用 “vivo 看见 - 蓝心升级版”等。

　　然而大模型虽好，却是个极为烧钱的事情，需要建设规模庞大的基础设施，为大模型提供充足的算力支持。xAI融资主要是为了快速扩展基础设施，比如建设了配备价值数十亿美元、10万个英伟达GPU的超级计算机Colossus。而xAI接下来计划把这一规模扩大到一倍，也就是20万个GPU。

　　对小米来说，这种资金规模巨大的投入方式很难跟进。据财报信息，小米预计 2024 年研发费用将达到 240 亿元，2025 年更将攀升至 300 亿元，从 2022 年到 2026 年的五年内，研发投入预计将超过 1000 亿元。

　　此前，小米在大模型方面实行的是合作与轻量化策略。与阿里云达成合作，强化旗下人工智能助手多模态 AI 生成能力；采取轻量化、本地部署的大模型策略，在重点场景上持续调优。

　　而近期大热的DeepSeek为雷军提供了一个更具性价比的大模型策略。DeepSeek被誉为“AI界拼多多”，性能上与顶尖模型相媲美，同时价格却远低于市场平均水平。

　　尤其是近期刚发布的全新超大规模模型——DeepSeek-V3。测试结果显示，DeepSeek-V3已超越诸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模型，甚至在性能上逼近 Anthropic 和 OpenAI 等封闭模型，大大缩小了开源和闭源 AI 之间的差距。

　　但按每 GPU 小时 2 美元的价格计算，DeepSeek-V3 的整体训练成本约为 557.6 万美元。这一数字远低于通常训练大型语言模型所需的数亿美元。例如，Llama-3.1 的训练成本估计超过 5 亿美元。

　　这也意味着DeepSeek的基础设施成本要远低于其他AI大模型。公开信息显示，幻方量化投资 2 亿元自主研发深度学习训练平台 “萤火一号”，并在 2021 年进一步投入 10 亿元用于 “萤火二号” 的研发，搭载了约 1 万张英伟达A100 显卡。在训练 DeepSeek-v3 模型时，DeepSeek仅用 2048 个英伟达H800 芯片运行 57 天，消耗 278 万个 GPU 小时。

　　据Andrej Karpathy的分析，按照以往经验，这种能力级别的大模型，通常需要接近1.6万张GPU，目前行业内的模型大多使用约10万张GPU。例如，Llama 3 405B模型消耗了3080万GPU小时。

　　从业务层面看，小米也许是国内最应该重金投入AI大模型的公司——小米可能拥有国内最丰富的AI入口。截至2024年Q3，小米AIoT平台连接的IoT设备超8.61亿，同比增长23.2%。如果AI大模型能够顺利融入如此之多的IoT设备，小米可以进一步加固自己的竞争门槛。

　　不过目前对大模型需求最强的业务可能是智能驾驶。自从去年以来，端到端大模型几乎成为了国内智能驾驶的标配，而且也的确大幅度提升了智能驾驶的水准。较晚入局造车的小米汽车虽然取得了不俗的成绩，但在智能驾驶方面相对保守，而且在智驾总里程方面也落后于业内主流公司。公开数据显示，小米SU7智驾里程已突破1亿公里，理想智驾总里程达到22亿公里，华为智驾总里程超过7.36亿公里，小鹏汽车智驾总里程已超过 5.41 亿公里。

　　“天才AI少女”能够借助“AI界拼多多”模型帮助小米汽车后来居上么？

（文章来源：财中社） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》