财中社12月2日电财通证券发布计算机行业专题报告,AI+OS,操作系统级Agent开启人机交互革命。AI赋能OS,操作系统级Agent由于其C端入口特性,有望成为首个“爆款”AI应用。当前市场中长期缺乏“爆款”AI应用,认为主要系C端大众对AI的感知度仍然较低,尽管有大量可下载、可付费的AI应用存在,但从广大用户体验来讲,各类AI软件对其生活重塑的边际变化不大。而近期,包括手机端苹果、荣耀、Vivo等,以及PC端联想等厂商上新操作系统级Agent作为新的人机交互形态,以端侧入口形式首次深入群众,令其“被迫”体验接受新的操作范式,有望打造首个“爆款”AI应用,由此将带动AI端侧硬件需求涌现,以及刺激软件内部AI功能快速迭代。
建立交互数据集,深耕Post-Training,获得“从Chat走向Act”通用Agent能力。智谱的Agent能力主要来源于其底层大模型的训练与迭代:CogAgent是18B参数的视觉语言模型(VLM),专门用于GUI理解和导航,基于视觉语言模型CogVLM并结合高分辨率交叉模块,实现了高效GUI推理;AutoWebGLM通过简化HTML增强网页阅读能力,添加人类与AI混合方法构建的网络浏览数据集进行微调,大幅提升大语言模型的Agent能力;AutoGLM实现图形用户界面的自主基础Agent,可用于网页浏览与安卓手机操作,与人类表现差距进一步缩小。认为,智谱克服了当前Agent训练的堵点,通过建立网页浏览交互数据集,以及在强化学习、微调阶段进行算法创新,实现了在大语言模型上操作系统级Agent突破。
GLM多端Agent家族,打造手机、PC、汽车等终端交互入口。GLM-Phone可实现跨APP操作、支持超长任务流程、支持更多主流APP,针对手机端应用提供了新的解决方案,显著扩展了其在手机端的应用场景和操作能力;GLM-PC使得办公领域将迎来生产力跃升,GLM-PC可实现会议替身、文档处理、网页搜索与总结、远程和定时操作等;GLM-Car&More方面,Agent为AI终极形态,加速万物智能、万物互联,未来Agent有望渗透至各类智能设备,落地AI原生设备,实现设备主动服务用户。