Yan 1.2大模型的推理能力和准确率如何？相关评测的数据如何？谢谢！_岩山科技(002195)股吧

股吧首页 > 岩山科技吧 > 正文

最近访问：

岩山科技吧

返回岩山科技吧>>

- 重要股东股权质押数据全览

岩山科技股友

发表于 2024-07-22 08:48:47 股吧网页版发布于广东

Yan 1.2大模型的推理能力和准确率如何？相关评测的数据如何？谢谢！

岩山科技：
公司旗下岩芯数智自主研发的Yan1.2多模态大模型运行在树莓派5（频率为2.4GHz的64位四核Arm Cortex-A76处理器）上进行推理每秒可达7-8 tokens的响应效率，在中低端的手机上推理每秒可达20+tokens（CPU运行，非NPU或GPU）的响应效率。根据媒体公开报道，Llama3 8B模型量化后在树莓派5上每秒速率低于2 tokens。
基于目前评测情况，Yan1.2大模型处于行业领先水平。Yan架构核心原理包括MCSD（multi-channel slope and decay）和基于仿生神经元驱动的类脑激活机制等。鉴于Yan1.2为多模态模型，为便于评测比较，岩芯数智将Yan1.2的核心模块即自然语言部分MCSD 3B模型，采用5-shot测试方法，与Llama3 8B模型、Pythia 2.8B模型、Mamba 2.8B模型、RWKV4 3B模型这4个典型自然语言模型进行了比较。岩芯数智将5个模型分别对ARC-C、ARC-E、WinoGrande、MMLU、Hellaswag 5个基本任务进行评测，MCSD 5个基本任务评测平均分为53.5分，高于Phthia（48.6分）、Mamba（52.4分）、RWKV4（49.1分），低于模型更大的Llama3（75.0分）。该评测结果评估了包括模型的准确率在内的整体综合表现，该结果已公开在论文当中（论文链接：https://arxiv.org/abs/2406.12230）。
根据美国苹果公司在其公开论文（论文链接：https://arxiv.org/abs/2404.14619）中发表的测试结果，其OpenELM模型（模型大小3.04B）采用zero-shot测试方法在7个基本任务上进行了测试，其中4个可比任务ARC-C、ARC-E、WinoGrande、Hellaswag的测试平均分为58.36分，低于MCSD的59.5分。OpenELM模型采用测试方法与MCSD不同且MCSD训练语料少于OpenELM，该对比结果仅供参考。
谢谢。

（来自深交所互动易）答复时间 2024-08-01 21:01:21

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》