$锐捷网络(SZ301165)$ $中兴通讯(SZ000063)$ 幻方deepseek事件周末仔细研究了一下,重大突破,大模型训练成本下降十倍,meta用了16000个h100,幻方用了2000个阉割版的h800就做到了,国人长志气。股友更关心的是对算力需求有什么影响。周五算力板块跌了很多人说是利空,逻辑是训练一次原来上亿刀现在500万就搞定了,设备需求就变小了。这里提出一些另类的观点:
1.首先训练的时间仍然很慢:两个月。更大的集群可不可以把训练时间减少十倍,比如比如16000张h100会不会只用6天就完成训练?以我作为算法工程师经验,肯定不会这么快,集群规模加大十倍训练速度不可能线性提升十倍,有个三到五倍的加速已经很优秀了。制约大模型训练的时间约束仍然存在,时间太长导致训练要考虑快照灾备,很难做参数微调的分支实验,拥有一个万卡集群仍然是大模型团队的首选,算力集群是瓶颈,越多越好的结论不变
2.训练成本下降十倍会不会导致更多的玩家可以下场参加这个竞赛?周五幻方公布了自己的云服务API,周五晚美股金山云暴涨,叠加最近小米入局,市场相信会有更多玩家加入
3.已经下场的玩家对自己算力的预算怎么看。比如字节的决策层,是把算法团队的预算砍一些还是加大投入争取弯道超车呢?如果相信第一条分析那是不可能砍预算的。比较有野心的决策者倾向于会加大硬件投入跟人才招聘。未来随着软硬件的迭代训练成本只会变低,门槛也会降低,玩家会越来越多,在技术爆发的奇点时刻,要抢夺更多人才和算力卡才能建立自己的领先优势,更大规模的算力可以显著提高模型的迭代速度,同时提高潜在竞争对手的入门成本
4.幻方事件对海内外算力企业的影响,不好点评,拍脑袋就是利好国产替代,国内企业硬气一把。算力的总需求只跟算力玩家的设备采购有关,deepseekv3的出现显然打开了国内设备需求的天花板。周五大a算力的杀跌更像是有人误以为利空而恐慌性砸盘,当然你说算力板块周四高潮见顶周五是利好兑现那也没毛病。见仁见智,如果是利空砸盘,那经过周末的冷静,短线就是修复了,如果是利好兑现那自然短线要调整。目前从股吧跟微博看,旗帜鲜明说是利好的貌似就本人,大部分博主都说是幻方事件是算力利空,这些言论是经不起仔细推敲。
5.谈了这么多大家也可以说我是托或者纸上谈兵,建议大家关注招聘软件上大模型工程师的需求变化和国内云厂商的美股走势验证,美股更讲逻辑