• 最近访问:
发表于 2024-12-31 19:15:50 股吧网页版
国内大模型厂商加速追赶OpenAI 智谱晒考研数学成绩单
来源:南方都市报

  12月31日,大模型独角兽智谱AI发布其首个基于扩展强化学习技术训练的推理模型GLM-Zero-Preview。据悉,该模型专注于增强AI推理能力,擅长处理数理逻辑、代码和需要深度推理的复杂问题,智谱AI还透露,在部分评测效果方面该模型也与OpenAI-o1-Preview相当。

  南都记者关注到,自9月OpenAI推出旗下首款具备“推理”能力模型o1以来,国内大模型厂商也在逐渐追赶、加入军备竞赛,DeepSeek、昆仑万维、阿里云、月之暗面、智谱都先后推出了推理模型。近期OpenAI推出重磅的o3推理模型,该模型能进行更复杂的推理,或将引领大模型厂商下一轮布局热潮。

  智谱最新推理模型考研数学拿到126分

  据智谱介绍,GLM-Zero-Preview专注于增强模型推理能力,擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升,在部分评测效果方面也与OpenAI-o1-Preview相当。

  目前用户可以在“智谱清言”官网中免费使用。根据目前的演示案例,GLM-Zero-Preview擅长逻辑推理、数学和代码方面的相关问题。以2025年考研数学一为例,GLM-Zero-Preview全卷得分为126(满分150),当输入考研数学最后一题的图片时,该模型读取图片后给出了完整解答过程;在代码编程方面,输入指令“帮我用html写一个有趣的第一人称射击游戏”后,GLM-Zero-Preview独立完成了游戏编程,同时也能识别代码错误并给出修复建议。

图片

  最新推理模型解答考研数学题。

  不过,智谱方面提到,目前的GLM-Zero-Preview与OpenAI的o3模型还有不少的差距。未来将持续优化迭代强化学习技术并推出正式版GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术。

  OpenAI推理模型o3将引领厂商下一轮布局热潮

  9月22日,OpenAI旗下首款具备“推理”能力的模型o1和o1-mini正式发布。OpenAI o1系列模型被业界认为是AGI(通用人工智能)的一大进程,不仅解决了“13.11与13.8比谁大”的数学问题,还能解决科学、编程方面的问题,相比此前的模型能处理更为复杂的任务。o1发布后,OpenAI所指出的推理Scaling Law似乎带来了全新的实现AGI范式。

  在o1推出以后,国内的大模型厂商也在逐渐追赶、加入军备竞赛。11月20日,AI六小龙之一DeepSeek发布了其推理模型DeepSeek-R1-Lite预览版。据悉DeepSeek R1系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,已取得了媲美o1-preview的推理效果。

  11月27日,昆仑万维正式推出具有复杂思考推理能力的系列模型——天工大模型o1版(Skywork o1)。其中,开源的Skywork o1 Open,在各项数学和代码指标上均有大幅提高,8B的Skywork o1 Open也解锁了包括当时GPT 4o无法完成的数学推理任务(如24点计算)。

  11月28日,阿里Qwen团队发布首个开源推理大模型QwQ-32B-Preview。据悉QwQ(Qwenwith Questions)是通义千问Qwen系列的最新实验性研究模型,其中QwQ-32B-Preview在评测数据中表现出色,尤其在数学和编程领域的深度推理任务上,展现出研究生级别的能力。

  12月16日月之暗面Kimi发布了视觉思考模型k1,据悉新一代模型通过激励模型生成更详细的推理步骤,形成高质量的思维链CoT(Chain of Thought),显著提升了解决更复杂、更难任务的成功率,同时k1模型的表现超过了全球标杆模型OpenAI o1。

  在发布该模型时,月之暗面还提到,AI大模型行业的技术范式处于强化学习阶段,“‘强化学习’就像人类在遇到难题时,并不是立即给出答案,而是先分析问题、探索不同的解决方案、尝试各种方案、反思、改进策略和反复尝试一样”。当时,k1能解答数学题、经典物理电路题。

  近期在OpenAI“双十二”活动中,OpenAI推出重磅的o3推理模型,该模型是OpenAI9月推出的o1推理模型的下一代。据OpenAI介绍,o3能够进行复杂任务的推理,在科学、编码、数学等领域的表现要优于前一代o1模型,同时花费的处理时间也会更长。以一项评估AI高级数学推理能力的测试EpochAI Frontier Math为例,以往所有模型都未达到2%的准确率,而o3准确率达到了创纪录的25%,该模型或将引领大模型厂商下一轮布局热潮。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500