这几天,沪研沪产大模型捷报频传。继15日上海人工智能实验室对“书生”大模型进行重要版本升级,MiniMax发布并开源新一代01系列模型后,阶跃星辰自研推理模型Step Reasoner mini(简称“Step R-mini”)今天上线。
Step Reasoner mini是Step系列模型家族的首个推理模型,擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。它既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。
记者了解到,目前大部分推理模型难以兼顾文理科双方向能力——随着训练参数规模增加,模型的文科能力会得到提升,但也会因此损失确定性,造成理工科能力的下滑。Step Reasoner mini通过大规模的强化学习训练,并使用同策略强化学习算法,实现了“文理兼修”。Step Reasoner mini除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。
例如,在解答“连续整数之和为1000的共有几组”这道题时,Step Reasoner mini展现了全面和严谨的思维链路:先分析用户题目需求,然后选择出最佳的解题公式,在得到初步答案后,它通过多次自我追问确定是否有没被考虑到的因素。
而在处理逻辑推理任务时,Step Reasoner mini会自主进行多种解题思路的尝试,在得到初步答案后,会自我反问尝试有没有其他可能性,确保枚举出所有效果良好的解决方案,并在交卷前检查有无遗漏。
当接到创作类题目的任务,Step Reasoner mini能够深入理解用户的表达需求,是个“追求完美”的创作者。它会先分析用户对创作主题、文学题材的要求,然后思考处理创作角度、描绘的景物、修辞手法、内容结构,赋予事物人类情感层面的象征意义,并增加个性化的、创新的表达风格。
记者获悉,阶跃星辰自研的Step系列基座模型矩阵,目前已经覆盖了从语言、多模态到推理的全面能力。