大模型性价比之王来了！训练2个月、花费558万美元性能匹敌GPT-4o_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2024-12-27 13:37:40 股吧网页版

大模型性价比之王来了！训练2个月、花费558万美元性能匹敌GPT-4o

来源：财联社

　　12月26日晚，幻方量化宣布，全新系列模型DeepSeek-V3上线并同步开源，API服务已同步更新，接口配置无需改动。

　　其上一代模型DeepSeek-V2.5于9月6日正式发布，迭代速速不可谓不快。

　　据介绍，DeepSeek-V3为自研MoE模型，生成速度相比V2.5模型实现了3倍的提升，但暂不支持多模态输入输出。（注：MoE模型全称Mixture of Experts，混合专家模型，是一种机器学习架构，通过组合多个专家模型，在处理复杂任务时显著提高效率和精度）。

　　参数和性能：DeepSeek-V3拥有6710亿参数，其中激活参数为370亿，在14.8万亿token上进行了预训练。

　　生成速度：相比V2.5版本，DeepSeek-V3的生成速度提升至3倍，每秒吞吐量高达60 token。

　　开源和可用性：DeepSeek-V3完全开源。

　　多语言处理能力：虽然当前版本暂不支持多模态输入输出，但在多语言处理方面表现出色，尤其在算法代码和数学方面。

答案生成速度更快

　　另外，在多项基准测试中，DeepSeek-V3的成绩超越了Qwen2.5-72 B和Llama-3.1-405 B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

　　其中，在数学能力方面，DeepSeek-V3大幅超过了所有开源闭源模型。（小K注：以2024年美国数学竞赛和全国高中数学联赛题库进行测试）

　　值得注意的是，幻方量化在已开源的论文中强调其训练成本极低——通过对算法、框架和硬件的优化协同设计，假设H800GPU的租用价格为每块GPU2美元/小时，DeepSeek-V3的全部训练成本总计仅为557.6万美元（注：该成本仅包括DeepSeek-V3的正式训练，不包括与先前在架构、算法或数据上的研究和消融实验相关的成本）：

训练成本合计

　　在预训练阶段，模型每训练1万亿token仅需要180K个GPU小时，即在配备2048个GPU的集群上只需3.7天，也就是说，该阶段团队使用2048块H800 GPU训练了模型不到2个月便达成目标；

　　另外，加上上下文长度scaling所需的119K GPU小时和后训练的5K GPU小时，DeepSeek-V3完整训练仅消耗2.788M个GPU小时。

图源：开源论文

　　技术大牛Andrej Karpathy发文称赞道：作为参考，要达到这种级别的能力，通常需要约1.6万个GPU的计算集群。不仅如此，当前业界正在部署的集群规模甚至已经达到了10万个GPU。比如，Llama 3 405B消耗了3080万GPU小时，而看起来更强大的DeepSeek-V3却只用了280万GPU小时（计算量减少了约11倍）。（小K注：Karpathy是OpenAI的联合创始人之一，并且曾担任特斯拉的AI总监）

　　Stability AI前CEO表示，以每秒60个token（相当于人类阅读速度5倍）的速度全天候运行DeepSeek-V3，每天仅需要2美元。

　　API服务定价上调2倍有余

　　DeepSeek-V3的发布标志着DeepSeek AI在自然语言处理和AI领域的又一重要进步，预计将为开发者、企业和研究人员提供强大的工具和资源。其应用场景主要包括：

　　聊天和编码场景：为开发者设计，能够理解和生成代码，提高编程效率。

　　多语言自动翻译：支持多达20种语言的实时翻译和语音识别，适合需要处理多种语言内容的企业用户。

　　图像生成和AI绘画：整合视觉理解技术，允许用户通过简单的文本描述生成高质量图像，丰富应用场景和用户创意表达的自由度。

　　性能更强、速度更快的DeepSeek-V3上线，幻方量化给出的定价是多少呢？新版本模型价格比上一代贵了2倍有余。

　　幻方量化表示DeepSeek-V3的API服务定价将上调为每百万输入tokens 0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens 8元，按缓存未命中的输入价格计，加总成本是10元人民币。

　　上一代模型Deepseek-V2.5的价格是，输入：0.14美元/百万Token，输出为：0.28美元/百万Token，加总成本是0.14+0.28=0.42美元，大约3元人民币。

　　这里的Token是大模型在处理数据时的最小单元，一般而言，100万Token相当于70万-100万英文单词，或接近100万中文汉字。列夫·托尔斯泰的名著《战争与和平》的英文版大约是大约有1200-1500页、58万英文单词，把它翻译为中文，大约有100-130万字，让DeepSeek-V3读完全文只需要2元左右。

　　尽管提价，但与同类型模型相比，DeepSeek-V3依旧极具性价比。比如OpenAI的GPT 4o定价相当高，输入：5美元/百万Token，输出：15美元/百万Token，加总成本是20美元，约合人民币140元。

（文章来源：财联社） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》