• 最近访问:
发表于 2024-07-18 22:30:40 股吧网页版
9.11>9.9?实测多款AI大模型“数智”能力堪忧,幻觉问题待解
来源:国际金融报 作者:余继超

  9.11>9.9?千亿参数人工智能(AI)大模型解不了小学数学题,这是真事!

  7月18日,记者实测阿里通义千问、百度文心一言、Minimax、腾讯元宝、字节豆包等多款大模型,其中阿里通义千问、月之暗面kimi、智谱清言、阶跃星辰跃问、百川智能百小应、商汤商量都给出了9.11的数值大于9.9的答案。

  在大模型应用时代,“数智”能力堪忧,将模型产生与现实不符的响应(即“幻觉”,hallucination)问题推到聚光灯前。多位受访行业专家指出,大模型幻觉问题已成为当下AI规模化应用的拦路虎,在实践中可以通过引入知识图谱、RAG(检索增强生成,Retrieval-augmented Generation)、联邦学习等新技术,解决大模型幻觉问题。

大模型“数智”能力堪忧

  13.11%和13.8%哪个数字值大?9.11和9.9哪个数值大?两道简单的小学数学题难倒了多数主流AI大模型,记者实测十多款主流大模型发现,仅百度文心一言、Minimax、腾讯元宝、字节豆包升级版(Doubao-pro-128k)给出正确答案。

  其中,阿里通义千问、月之暗面kimi、智谱清言、阶跃星辰跃问、百川智能百小应、商汤商量等大模型都认为9.11的数值大于9.9,还一本正经地胡说八道。比如,通义千问就认为9.11比9.9的数值大,“在小数的比较中,如果整数部分相同(在这个例子中都是9),那么就比较十分位,9.11的十分位是1而9.9的十分位是9,因此9.11大于9.9”。

  记者在实测中发现,阿里通义千问、月之暗面kimi、商汤商量大模型都知道在整数相同的情况下,要比较小数,但都认为“由于0.11大于0.9”,所以得出“9.11的数值大于9.9”的结论。而百川智能百小应没有推理,很干脆地给出“9.11大于9.9”的错误答案。

  在记者的追问下,百川智能百小应最终纠正了错误,通义千问、商汤商量仍坚持认为在“数学上,9.11的值大于9.9”。在第二次生成过程中,通义千问已经纠正了第一次生成的“1比9大”的错误,但仍然认为“由于9.9实际上可以写作9.90来比较,可以看到9.11的小数点后第二位是1,而9.9的小数点后第二位是0。因此,尽管9比1大,但9.90(或简写为9.9)作为一个整体,其数值小于9.11”。

  同样的“认知错误”也出现在智谱清言上,该款模型认为“在十分位上9.9大于9.11。但由于9.11还有更小的数值位(百分位为1),而9.9在百分位上相当于0,因此整体来看,9.11的数值更大”。

  大模型不但有“认知错误”,还在逻辑推理上会犯“迷糊”。当记者问kimi“0.9不是大于0.11”吗?kimi纠正了错误答案,表示“比较小数部分,0.9实际上是大于0.11的,所以9.9比9.11大”。而当记者再次问9.11和9.9哪个数值大时,kimi又给出错误回复。阶跃星辰跃问就越理越乱,一开始用苹果举例,得出来“9/10个苹果比1/10个苹果多,也就是9.9比9.11大”,忽然话锋一转“但是,由于题目问的是9.11和9.9哪个数值大,而不是问9.11和9.9哪个数值小,所以正确答案是9.11比9.9大”。

大模型幻觉问题待解

  随着生成式AI大模型在不同场景、不同产业中应用,大模型幻觉问题日益凸显。有算法科学家对记者分析指出,“生成式大模型在判断和推理上,目前还是有缺陷的。被简单的数学题难住,一方面是大模型本身存在幻觉问题,另一方面也可能和大模型厂商在这个领域训练不足有关。从大模型回复的错误内容可以看出,现在国内大模型厂商在一些不热门的领域,还是存在数据(语料)趋同,算法逻辑趋同的问题。”

  幻觉是影响大模型落地的重要问题之一,引起了人们对人工智能系统的可靠性和可信度的严重担忧。蚂蚁集团CTO(首席技术官)何征宇对记者表示,“生成式AI要实现更广泛的应用,必须克服这一点。任何一项技术真正落地的过程中,可靠性都必须解决。一项技术如果不可靠,那么只能是实验室的产品。如果不能克服,AI难以实现规模化的技术适用。”

  “联邦大模型技术路线通过其独特的设计,不仅解决了数据时效性、模型幻觉、专业知识融合及算力资源消耗等挑战,而且在保护数据隐私和促进AI技术公平性方面迈出了重要一步,为大模型在各领域的广泛应用开辟了新的可能。”微众银行人工智能首席科学家范力欣表示。

  马上消费人工智能研究院院长陆全对记者表示,AI原生(AI Native)与风险伴生,技术发展和治理并非孤立存在的两个方面,而是一个整体系统中的不同维度,覆盖全生命周期。陆全倡导构建一个开放的生态系统,鼓励多方参与,包括政府、企业、学术界和公众等,共同参与AI治理。这种新模式强调协同合作,通过共享资源和知识,实现更广泛的AI治理目标。

  小雨点集团首席技术官许慎在接受记者采访时指出,有关对待大模型应用中的幻觉问题,现阶段一大思路是模型应用上要明确责任主体,责权一旦分清楚,相应的监管框架规范清晰以后,自然而然能缓解和控制幻觉出现的影响和风险。

  “当然,在技术层面要尽可能降低大模型出现幻觉的可能,除了模型技术本身,这背后也与数据的质和量息息相关。只有数据的数量和质量达到一定水平后,用得越多,用得越深入,才能积累更多高质量的数据,从而逐步降低大模型出现幻觉的概率,形成良性正反馈循环。”许慎表示。

  何征宇认为,大模型幻觉问题是由于当下技术不够成熟,技术是演进的,就像无人驾驶和新能源车的发展。随着技术的发展,这些问题会逐步解决。大模型本质上是概率问题,在实践中可以通过引入知识图谱、RAG(检索增强生成)等新技术,将输入和输出的知识框起来,可以解决大模型幻觉这类问题。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500