11月27日,昆仑万维正式推出天工大模型4.0 o1版(Skywork o1)。
据昆仑万维介绍,Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型,是国内第一款中文逻辑推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、计划、反思等能力,同时,该开源模型在标准评测集上,对比普通模型推理能力大幅上升,真正让模型拥有了思考和反思带来的推理能力的提升。团队复现o1的技术路线,使得初始推理能力较差的基座模型在基准测试集上成为生态位SOTA。
此次发布的Skywork o1包括三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本,分别为Skywork o1 Open、Skywork o1 Lite与Skywork o1 Preview。其中,昆仑万维开源的Skywork o1 Open,在各项数学和代码指标上均有大幅提高,将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B instruct)。同时,8B的Skywork o1 Open解锁了很多较大量级模型,为推理模型在轻量级设备上部署提供了可能性。
Skywork o1在逻辑推理任务上性能的大幅提升得益于天工三阶段自研的训练方案。推理反思能力训练方面,通过自研的多智能体体系构造高质量的分步思考、反思和验证数据,通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。推理能力强化学习方面,团队研发了最新的适配分步推理强化的Skywork o1 Process Reward Model(PRM)。实验证明,Skywork-PRM可有效捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。推理planning方面,基于天工自研的Q*线上推理算法配合模型在线思考,并寻找最佳推理路径。这也是全球首次将Q*算法实现和公开,其落地大大提升了模型线上推理能力。
昆仑万维表示,2024年以来,昆仑万维天工AI持续进化,陆续发布了天工2.0、天工3.0、天工大模型4.0 4o版,以及此次天工大模型4.0 o1版。这不仅是公司贯彻“All in AGI与AIGC”战略的重要举措,更是其构建AI技术栈的重要一步。展望未来,公司将继续秉持“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,从模型层、应用层等全方位、多维度来构建公司技术竞争力和生态矩阵。