9.11＞9.9？实测多款AI大模型“数智”能力堪忧，幻觉问题待解_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2024-07-18 22:30:40 股吧网页版

9.11＞9.9？实测多款AI大模型“数智”能力堪忧，幻觉问题待解

来源：国际金融报作者：余继超

　　9.11>9.9？千亿参数人工智能（AI）大模型解不了小学数学题，这是真事！

　　7月18日，记者实测阿里通义千问、百度文心一言、Minimax、腾讯元宝、字节豆包等多款大模型，其中阿里通义千问、月之暗面kimi、智谱清言、阶跃星辰跃问、百川智能百小应、商汤商量都给出了9.11的数值大于9.9的答案。

　　在大模型应用时代，“数智”能力堪忧，将模型产生与现实不符的响应（即“幻觉”，hallucination）问题推到聚光灯前。多位受访行业专家指出，大模型幻觉问题已成为当下AI规模化应用的拦路虎，在实践中可以通过引入知识图谱、RAG（检索增强生成，Retrieval-augmented Generation）、联邦学习等新技术，解决大模型幻觉问题。

大模型“数智”能力堪忧

　　13.11%和13.8%哪个数字值大？9.11和9.9哪个数值大？两道简单的小学数学题难倒了多数主流AI大模型，记者实测十多款主流大模型发现，仅百度文心一言、Minimax、腾讯元宝、字节豆包升级版（Doubao-pro-128k）给出正确答案。

　　其中，阿里通义千问、月之暗面kimi、智谱清言、阶跃星辰跃问、百川智能百小应、商汤商量等大模型都认为9.11的数值大于9.9，还一本正经地胡说八道。比如，通义千问就认为9.11比9.9的数值大，“在小数的比较中，如果整数部分相同（在这个例子中都是9），那么就比较十分位，9.11的十分位是1而9.9的十分位是9，因此9.11大于9.9”。

　　记者在实测中发现，阿里通义千问、月之暗面kimi、商汤商量大模型都知道在整数相同的情况下，要比较小数，但都认为“由于0.11大于0.9”，所以得出“9.11的数值大于9.9”的结论。而百川智能百小应没有推理，很干脆地给出“9.11大于9.9”的错误答案。

　　在记者的追问下，百川智能百小应最终纠正了错误，通义千问、商汤商量仍坚持认为在“数学上，9.11的值大于9.9”。在第二次生成过程中，通义千问已经纠正了第一次生成的“1比9大”的错误，但仍然认为“由于9.9实际上可以写作9.90来比较，可以看到9.11的小数点后第二位是1，而9.9的小数点后第二位是0。因此，尽管9比1大，但9.90（或简写为9.9）作为一个整体，其数值小于9.11”。

　　同样的“认知错误”也出现在智谱清言上，该款模型认为“在十分位上9.9大于9.11。但由于9.11还有更小的数值位（百分位为1），而9.9在百分位上相当于0，因此整体来看，9.11的数值更大”。

　　大模型不但有“认知错误”，还在逻辑推理上会犯“迷糊”。当记者问kimi“0.9不是大于0.11”吗？kimi纠正了错误答案，表示“比较小数部分，0.9实际上是大于0.11的，所以9.9比9.11大”。而当记者再次问9.11和9.9哪个数值大时，kimi又给出错误回复。阶跃星辰跃问就越理越乱，一开始用苹果举例，得出来“9/10个苹果比1/10个苹果多，也就是9.9比9.11大”，忽然话锋一转“但是，由于题目问的是9.11和9.9哪个数值大，而不是问9.11和9.9哪个数值小，所以正确答案是9.11比9.9大”。

大模型幻觉问题待解

　　随着生成式AI大模型在不同场景、不同产业中应用，大模型幻觉问题日益凸显。有算法科学家对记者分析指出，“生成式大模型在判断和推理上，目前还是有缺陷的。被简单的数学题难住，一方面是大模型本身存在幻觉问题，另一方面也可能和大模型厂商在这个领域训练不足有关。从大模型回复的错误内容可以看出，现在国内大模型厂商在一些不热门的领域，还是存在数据（语料）趋同，算法逻辑趋同的问题。”

　　幻觉是影响大模型落地的重要问题之一，引起了人们对人工智能系统的可靠性和可信度的严重担忧。蚂蚁集团CTO（首席技术官）何征宇对记者表示，“生成式AI要实现更广泛的应用，必须克服这一点。任何一项技术真正落地的过程中，可靠性都必须解决。一项技术如果不可靠，那么只能是实验室的产品。如果不能克服，AI难以实现规模化的技术适用。”

　　“联邦大模型技术路线通过其独特的设计，不仅解决了数据时效性、模型幻觉、专业知识融合及算力资源消耗等挑战，而且在保护数据隐私和促进AI技术公平性方面迈出了重要一步，为大模型在各领域的广泛应用开辟了新的可能。”微众银行人工智能首席科学家范力欣表示。

　　马上消费人工智能研究院院长陆全对记者表示，AI原生（AI Native）与风险伴生，技术发展和治理并非孤立存在的两个方面，而是一个整体系统中的不同维度，覆盖全生命周期。陆全倡导构建一个开放的生态系统，鼓励多方参与，包括政府、企业、学术界和公众等，共同参与AI治理。这种新模式强调协同合作，通过共享资源和知识，实现更广泛的AI治理目标。

　　小雨点集团首席技术官许慎在接受记者采访时指出，有关对待大模型应用中的幻觉问题，现阶段一大思路是模型应用上要明确责任主体，责权一旦分清楚，相应的监管框架规范清晰以后，自然而然能缓解和控制幻觉出现的影响和风险。

　　“当然，在技术层面要尽可能降低大模型出现幻觉的可能，除了模型技术本身，这背后也与数据的质和量息息相关。只有数据的数量和质量达到一定水平后，用得越多，用得越深入，才能积累更多高质量的数据，从而逐步降低大模型出现幻觉的概率，形成良性正反馈循环。”许慎表示。

　　何征宇认为，大模型幻觉问题是由于当下技术不够成熟，技术是演进的，就像无人驾驶和新能源车的发展。随着技术的发展，这些问题会逐步解决。大模型本质上是概率问题，在实践中可以通过引入知识图谱、RAG（检索增强生成）等新技术，将输入和输出的知识框起来，可以解决大模型幻觉这类问题。

（文章来源：国际金融报） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》