• 最近访问:
发表于 2024-07-19 04:03:11 股吧网页版
大模型答数学题“翻车”是种警示
来源:广州日报

  评论员观察

  近日,一道小学数学题让AI大模型集体“失智”了。9.11和9.9两个数字哪个更大?就此问题,第一财经记者测试了12个大模型。其中,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误,且错法各有不同。

  一道小学数学题难倒了一众海内外AI大模型,这在舆论场激起了不小涟漪。有人“惊掉下巴”,调侃“大模型集体翻车”;也有人质疑AI的能力边界,甚至上手测试了一番,结果发现答案对错都有,有些大模型能迅速“承认错误”,而有的则“一错到底”。

  针对这一事件,业界给出了分析,总结起来有二。一是技术。大模型在分析文本时,通常会使用特定机制将文本拆分成更小的单元,然后再进行处理。打个比方,这就类似于将一句话拆成一个个词汇去理解。我们都知道,很多词语脱离特定语境,意思可能就变了,所以会有“断章取义”的误解。同理,大模型的这种拆分处理,显然不够严谨。

  二是训练数据。现如今,大模型更多是以文本模型进行训练分析,在数理分析、逻辑推理上还有待优化,很多用户也感觉大模型“文科强理科弱”。对此,有媒体以今年高考数学题做测验,结果显示,参与测试的7个大模型全部“不及格”,最高分只有75分。由此看来,所谓大模型是“文科生”的说法,未必没有道理。

  有道是“福祸相依”,此次事件不见得完全是坏事,至少提醒了我们两件事。头一件,大模型的短板要补上来。大模型回答数学问题“吃瘪”,暴露了其基础不够扎实。目前,依托庞大参数规模、强大算力资源等“外挂”,大模型作为人工智能领域最热门的技术分支,已在多个领域表现出“超高”水准。因而,业界也早早“走在前面”,锚定工业生产制造、金融计算等重要领域,布局新场景,落地新应用。基础不牢,地动山摇。如果连最基础的数学都搞不定,又如何去解决更复杂的现实问题?如何实现技术范式的颠覆性创新?显然,基础性研究和基本能力建设,已成为必须翻越的两座大山。

  第二件,我们要学会对技术产物“祛魅”。AI大模型出道至今,一直顶着“能力担当”的头衔。帮学生写作业、为“打工人”敲总结……如此“博学多才”,以至于我们期待甚高、依赖过多,总觉得它“无所不能”。可事实上,不论是大模型,还是其他人工智能技术,虽然概念持续火热、产品琳琅满目,但大部分尚处在测试探索期,距离真正成熟、好用还有一定距离。所谓“祛魅”,就是保持“人间清醒”。既不过分迷信技术特质,也不盲目夸大技术功用,而是在客观判断和合理运用中,让技术应用成为我们的最佳“搭档”。(庹亚男)

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500