大模型·大未来 “巢燧杯”大模型创新发展大赛今日启动_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2024-07-01 13:17:20 股吧网页版

大模型·大未来 “巢燧杯”大模型创新发展大赛今日启动

来源：红星资本局

　　作为生成式人工智能的代表，大模型已经进入全新的发展阶段。

　　为了实现“以赛聚才、以赛带会，以会促产”，红星新闻、红星资本局与OpenEval平台联合发起“巢燧杯”大模型创新发展大赛，今日正式启动。

　　红星资本局注意到，截至2024年年初，国内已有超过200个大模型。在通用大模型之外，各类专注垂直领域的大模型也推动着整个人工智能产业快速发展，甚至在各类产业的升级转型中发挥出了决定性的作用。

采用专属自动测试平台

“以赛代评”助力行业发展

　　今年3月，国家发展改革委、工业和信息化部等18个部门联合印发《贯彻实施<国家标准化发展纲要> 行动计划（2024-2025年）》，其中提到：要在人工智能等关键领域集中攻关，加快研制一批重要技术标准；要聚焦生成式人工智能等领域，前瞻布局未来产业标准研究。

　　开展大模型基准测试将为大模型技术发展打造“高速高清摄像头”，“捕获”大模型技术发展态势全景图，深化大模型认识，为大模型发展提供基准数据支撑和任务定义，有利于引领大模型技术创新和突破。

　　天津大学智能与计算学部熊德意教授认为，“通过对开源和闭源大模型进行大规模、多维度基准测试，将精准定位大模型产业发展的技术短板，为大模型技术落地和应用提供诊断分析报告，推动前沿技术与产业发展深度对接；此外，大模型基准测试的开展也能够为人工智能安全治理提供数据资料和技术手段，为大模型安全治理提供重要技术抓手，推进业界形成以评测为基础的大模型负责任发展理念。”

　　事实上，在2023年，第一届的人工智能大模型基准测试科创发展大会就搭建了OpenEval平台，该平台是专门为大模型评测研制开发的自动测试平台。

　　此次大会站在第一届大会成果筑起的高台上，将继续依托OpenEval平台分赛道对大模型产品进行评测，但相较过往会更进一步探索前沿的模型评测方法，建立大模型评测标准与协议，通过评测标准等引导市面上的大模型高质量发展。

　　评测标准将指引行业高速发展，评测结果也将助力行业构建全景视图，并推进人工智能领域技术发展与突破。

“巢燧杯”正式启动

分四大赛道展示大模型的能力与价值

　　“巢燧之前，寂寥无纪；书契而后，焕炳可观。”《先秦史》云：“吾国开化之迹，可征者始于巢、燧、羲、农。”当前，人类正面临一个全新的机器智能文明纪元的开始，此次大赛将使用“巢燧”作为统一名称。

　　2024“巢燧杯”大模型创新发展大赛由通用大模型评测、行业大模型评测大赛、专项挑战赛、大模型应用场景挑战赛四个大赛组成。

　　其中，“通用大模型评测”将延续2023年聚焦开源和专有大模型展开通用测试，依托OpenEval平台，对参赛的通用大模型从多个维度进行评测，根据相关大模型更新时间进行复测打榜。

　　行业大模型评测大赛设有金融、医疗、法律、交通、水利、科学六个垂直行业，由北京交通大学、上海交通大学、郑州大学、香港中文大学（深圳）等（排名不分先后）高校分别负责组织各垂直行业的比赛。在基准评测外，金融和医疗行业还将分别举办产业交流活动。

　　专项挑战赛则聚焦大模型特定维度（如Agent能力、价值对齐等）进行专项评测。目前已确定三个方向：角色大模型专项挑战赛（角色知识）、Agent大模型专项挑战赛（真实场景App工具规划与调用）、大模型道德对齐专项挑战赛（中文道德伦理对齐）。

　　而大模型应用场景挑战赛计划通过调研的方式，发掘企业大模型需求场景，在把部分数据进行隐私处理后，邀请大模型企业针对企业需求场景进行开发训练、活动现场路演，由企业负责人进行打分，评选优秀获奖项目。

　　此次预计邀请近百家企业及产品参赛。评委方面，将邀请来自信通院、中国软件评测中心（工信部软件与集成电路促进中心）、北京交通大学、上海交通大学、天津大学、香港中文大学（深圳）等多所机构和高校的专家、学者，以及行业头部企业和投资机构共同参与，筛选出不同场景应用中的优质项目和企业。

　　“巢燧杯”大模型创新发展大赛的首次评测将于7月1日正式启动报名，届时可通过大赛官方网站注册报名。

　　另外，2024人工智能大模型基准测试科创发展大会拟在8月底举办，大赛结果也将在大会上公布。

　　以下为“巢燧杯”大模型创新发展大赛详情：

　　参赛对象

　　大赛面向全社会开放，相关领域的个人、团队、企业、研究机构均可报名参加

　　大赛安排

　　1.通用大模型评测：按季度评测，由评测组织单位定期对开源模型进行本地化评测、闭源模型进行API访问方式评测，评测维度覆盖语言知识、学科知识、常识推理、数学推理、伦理对齐、安全可信等方面。

　　2.行业大模型评测：设有金融、医疗、法律、交通、水利、科学六个垂直赛道，每个赛道均设置行业基准评测。

　　3.专项挑战赛：设置角色大模型专项挑战赛（角色知识）、Agent大模型专项挑战赛（真实场景APP工具规划与调用）、大模型道德对齐专项挑战赛（中文道德伦理对齐）。

　　4.应用场景挑战赛：参赛者按模版要求，提交材料，由专家评选出进入复赛的团队。

（文章来源：红星资本局） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》