蓝鲸新闻11月29日讯(记者朱俊熹)“帮我创建一个面对面群聊,在群聊里发个一万的红包,数量为一百个,名字为‘AI给你发的第一个红包’。”在11月29日举办的Agent OpenDay现场,智谱AI CEO张鹏对着手机里的智能体AutoGLM发出以上语音指令。除了因现场同时进群的人数过多,导致AutoGLM一时未能马上加入群聊外,数百位群成员很快就成功领取到了微信红包。
今年10月,国内大模型独角兽智谱AI推出能够模拟人类操作手机的自主智能体AutoGLM,并开启内测。在最新的OpenDay活动上,智谱AI除了带来升级后的AutoGLM,还发布了基于PC的自主智能体GLM-PC,主打能够像人一样操作计算机。
智谱AI表示,新升级的AutoGLM可以挑战完成更复杂的任务。据张鹏现场演示,通过AutoGLM在美团App上采购火锅食材时,该智能体能够自主执行54步无打断操作。在这一过程中,AutoGLM可以理解并记住复杂指令,在速度表现上也略快于人手动操作。
升级后的AutoGLM不再局限于单一应用内的操作,而是支持跨App操作。例如,用户可直接对AutoGLM输入指令:“在美团和饿了么上对比一点点的乌龙奶茶的价格哪个更便宜”,它就会自主完成打开不同App、比价甚至下单购买等一系列操作。
最新发布的Auto产品GLM-PC则将交互终端进一步拓展至电脑端,智谱AI称这是其GLM团队“面向‘无人驾驶’PC的一次技术探索”。据官方介绍,目前第一阶段GLM-PC的内测体验场景包括发送信息、参与会议、文档处理、网页搜索与总结、远程和定时操作等。此外,还将于明年一季度推出隐形屏幕功能,让人和GLM-PC能够使用同一台电脑工作,在提高协作效率的同时,又不会影响人类用户使用物理屏幕。
在演示视频中,当用户下班后没带电脑,但领导要求发送电脑上的某份文件时,用户就可以用手机给GLM-PC发消息来实现远程遥控。GLM-PC能够自动进行电脑操作,帮用户找到并发送指定文件。但若涉及到最终发送等关键步骤,GLM-PC会弹出提醒窗口,待人工确认后才会继续执行操作。
张鹏表示,GLM-PC使用电脑的方式几乎完全和人一样。理论上,只要是为人类设计的应用,GLM-PC在学习之后都能够执行。它所基于的模型仅需视觉截图作为输入,而不依赖HTML、API等传统接口。因此,其能力上限更高,具备跨平台、跨系统的泛化能力,可以应用到任意的图形用户界面。
“不过,由于PC的复杂程度,以及大家在PC完成的几乎都是复杂任务,坦率的说,今天大模型的能力距离真正代替大家办公还有一定距离。”张鹏补充称,“GLM-PC在目前的内测体验中,用户仍需要输入非常精准的指令。”
近来,Anthropic、OpenAI、谷歌等不少国外科技企业也瞄向了AI接管人类设备这一领域,已推出或正在开发相关AI产品。据智谱AutoGLM技术负责人刘潇现场分享,在探索智能体的过程中,团队发现AutoGLM智能体和OpenAI的推理模型o1从本质上服从同一套Scaling Law(扩展定律)。o1模型通过推理过程中的自我反馈监督来持续提升其性能,智能体则通过和环境进行交互,获得来自环境的反馈和监督信号,满足类似o1的规模扩展效应。
刘潇表示,在o1 scaling的基础上,还观察到智能体存在的能力涌现。例如,随着进一步的训练和规模的扩展,AutoGLM能够在一个月的时间内,从完成单应用、短距离任务进化到初步胜任跨应用、长距离任务。即使AutoGLM从未与微信小程序进行过任何交互式训练,当下达“帮我在微信的Tims咖啡小程序里下单柑橘美式”的指令,并给出一些关键步骤的建议时,AutoGLM依然能够完成操作。
智谱AI称,希望通过规模扩展,未来进一步提升AutoGLM的泛化能力,支持更广泛的商业场景。其中一个重要的落地方向便是智能硬件,智谱希望将其智能体推广到手机、电脑、汽车、眼镜等各类终端设备上。过去半年以来,智谱已与荣耀、华硕、小鹏等众多终端厂商达成合作,相关技术负责人也纷纷亮相此次OpenDay活动。