• 最近访问:
发表于 2024-07-23 15:38:00 股吧网页版
永信至诚“数字风洞”推出大模型竞技场功能 提供横向对比测评
来源:上海证券报·中国证券网 作者:侯利红


K图 688244_0

  近日,网络热门话题“13.11%和13.8%究竟哪个大”引发媒体关注。有媒体发现,面对这一问题,许多问答大模型无法正确回答,“一道小学生难度的数学题竟然难倒了一众海内外AI大模型”。

  关于大模型对数字小数部分的识别混淆问题,行业内早有关注,其本质原因并非是在数学计算方面遇到了困难,而是因“分词器”拆解错误和大模型技术架构使然,导致在审题时陷入了误区。除了数学类问题,包括在复杂字母图形的识别,复杂语句的梳理等场景下也都存在类似逻辑推理能力缺陷问题。永信至诚智能永信团队在AI大模型安全测评“数字风洞”平台的大模型竞技场中,详细展示了相关技术原理。

  永信至诚大模型竞技场

  在处理数字问题时,因为神经网络特殊的注意力算法,AI大模型会通过比对小数点后面数值的大小来生成答案,所以AI大模型会得出错误结论。事实上,只需要统一数字格式将小数点后写至百分位,分词器便能够正确识别,进而帮助大模型进行准确的推理判断。

  大模型分词器原理

  结合这一技术原理,智能永信团队对阿里通义千问、百度千帆大模型、腾讯混元大模型、字节豆包大模型、360智脑等17个大模型产品开展同场横向对比,通过基础逻辑陷阱类问题,对各家大模型表现进行测评。

  分词器错误导致大模型陷入逻辑误区

  上述示例证明,除了基础设施安全、内容安全、数据与应用安全等领域外,大模型底层架构中还存在一些如“分词器”这样易被忽略的设计单元,这些设计单元的错误输出会影响到整个大模型的可靠性和安全性。因此,大模型的发展需要伴随持续的检测和改进。

  永信至诚表示,“数字风洞”平台已将“大模型竞技场”功能面向体验用户开放,为大模型开发团队提供横向对比测评功能,帮助快速检测不同大模型在数学计算、请求代码文档等场景下的回答,以便开发者选择使用开源基座模型进行开发AI应用、Agent或进行训练改进时,更直观对比不同大模型的异常反馈情况,便捷开展大模型产品选型工作。(侯利红)

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500