大模型答数学题“翻车”是种警示_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2024-07-19 04:03:11 股吧网页版

大模型答数学题“翻车”是种警示

来源：广州日报

　　评论员观察

　　近日，一道小学数学题让AI大模型集体“失智”了。9.11和9.9两个数字哪个更大？就此问题，第一财经记者测试了12个大模型。其中，国内外12个大模型之中只有4个答对了，剩下8个全都回答错误，且错法各有不同。

　　一道小学数学题难倒了一众海内外AI大模型，这在舆论场激起了不小涟漪。有人“惊掉下巴”，调侃“大模型集体翻车”；也有人质疑AI的能力边界，甚至上手测试了一番，结果发现答案对错都有，有些大模型能迅速“承认错误”，而有的则“一错到底”。

　　针对这一事件，业界给出了分析，总结起来有二。一是技术。大模型在分析文本时，通常会使用特定机制将文本拆分成更小的单元，然后再进行处理。打个比方，这就类似于将一句话拆成一个个词汇去理解。我们都知道，很多词语脱离特定语境，意思可能就变了，所以会有“断章取义”的误解。同理，大模型的这种拆分处理，显然不够严谨。

　　二是训练数据。现如今，大模型更多是以文本模型进行训练分析，在数理分析、逻辑推理上还有待优化，很多用户也感觉大模型“文科强理科弱”。对此，有媒体以今年高考数学题做测验，结果显示，参与测试的7个大模型全部“不及格”，最高分只有75分。由此看来，所谓大模型是“文科生”的说法，未必没有道理。

　　有道是“福祸相依”，此次事件不见得完全是坏事，至少提醒了我们两件事。头一件，大模型的短板要补上来。大模型回答数学问题“吃瘪”，暴露了其基础不够扎实。目前，依托庞大参数规模、强大算力资源等“外挂”，大模型作为人工智能领域最热门的技术分支，已在多个领域表现出“超高”水准。因而，业界也早早“走在前面”，锚定工业生产制造、金融计算等重要领域，布局新场景，落地新应用。基础不牢，地动山摇。如果连最基础的数学都搞不定，又如何去解决更复杂的现实问题？如何实现技术范式的颠覆性创新？显然，基础性研究和基本能力建设，已成为必须翻越的两座大山。

　　第二件，我们要学会对技术产物“祛魅”。AI大模型出道至今，一直顶着“能力担当”的头衔。帮学生写作业、为“打工人”敲总结……如此“博学多才”，以至于我们期待甚高、依赖过多，总觉得它“无所不能”。可事实上，不论是大模型，还是其他人工智能技术，虽然概念持续火热、产品琳琅满目，但大部分尚处在测试探索期，距离真正成熟、好用还有一定距离。所谓“祛魅”，就是保持“人间清醒”。既不过分迷信技术特质，也不盲目夸大技术功用，而是在客观判断和合理运用中，让技术应用成为我们的最佳“搭档”。（庹亚男）

（文章来源：广州日报） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》