智源公布FlagEval“百模”评测结果_百度(usbidu)股吧

股吧首页 > 百度吧 > 正文

最近访问：

百度吧

返回百度吧>>

- 重要股东股权质押数据全览

百度资讯

发表于 2024-12-19 23:48:30 股吧网页版

智源公布FlagEval“百模”评测结果

来源：北京商报作者：魏蔚

　　北京商报讯（记者魏蔚）12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval，经过数次迭代，目前已覆盖全球800多个开闭源模型，包含20多种任务，90多个评测数据集，超200万条评测题目。

　　在评测方法与工具上，智源研究院联合全国10余家高校和机构合作共建，探索基于AI的辅助评测模型 FlagJudge和灵活全面的多模态评测框架FlagEvalMM，并构建面向大模型新能力的有挑战的评测集，包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等，其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集，有18000多个轮次对话，和14万多个回答。

　　以语言模型为例，评测重点考察模型中文能力，结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五；在语言模型客观评测中，OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二，阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四，Meta Llama-3.3-70B-Instruct排名前五。

（文章来源：北京商报） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》