• 最近访问:
发表于 2024-06-19 21:45:20 股吧网页版
AI高考全卷评测结果发布 阿里通义Qwen2模型排名第一,超越GPT-4o
来源:新华财经

  6月19日,上海人工智能实验室发布AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,高于OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)。

图片1.png

  上海人工智能实验室公众号文章介绍,高考覆盖各类学科及题型,这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。2024年全国高考甫一结束,上海人工智能实验室的司南评测体系OpenCompass就选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。

  本次评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。全卷试题既包含选择、填空等“答案唯一性”题目,也包括简答、阅读理解及作文等主观题,在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

图片2.png

  评测结果显示,Qwen2-72B以语数外303分的总成绩,成为本次大模型高考“状元”,领先于GPT-4o(296分)及书生·浦语2.0文曲星(InternLM2-20B-WQX,295.5)。本次评测的另外三位大模型选手分别是法国AI创业公司Mistral的Mixtral 8x22B模型、零一万物公司的Yi-1.5-34B模型、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的混合专家(MoE)模型Qwen2-57B-A14B,通义千问的MoE模型同样表现不俗,总分(254分)位列第四名。

  上海人工智能实验室指出,大部分模型考生的语文、英语科目表现良好,但在数学方面还有很大的提升空间。InternLM2-20B-WQX取得了数学单科的最高分,但仍未达到及格水平,表明大模型的数学能力存在较大提升空间。据悉,本次“大模型高考”答案生成脚本、各模型答卷、教师评分细节全部公开。后续,研究团队将在评测中引入多模态大模型,以考察模型应对更多题型的能力,并陆续发布覆盖不同学科和地区的完整高考评测。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500