• 最近访问:
发表于 2024-05-15 16:58:09 股吧网页版
“王炸”AI模型来了!谷歌全面对标OpenAI,究竟谁更胜一筹
来源:潮新闻 作者:记者 许伊雯 张云山


K图 GOOGL_0


K图 GOOG_0

  新一轮的大模型之争开始了。

  24小时以前,OpenAI抢先发布GPT-4o,通过实时的语音、视频和文本交互刷屏社交网络,震撼着全世界。仅仅过了一天,科技巨头谷歌顶着压力,全面反击OpenAI。

  5月15日凌晨,在一年一度的“科技界春晚”Google I/O 开发者大会上,谷歌展示了十来款新品和升级,其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元(TPU)Trillium芯片,还将搜索业务做了最彻底的AI改造。

  谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)介绍,谷歌所有的工作都围绕生成式AI模型Gemini来做。一年前,谷歌首次分享了原生多模态大模型 Gemini的计划,现在已经有超过150万开发者正在使用谷歌的人工智能Gemini,“今天,我们希望每个人都能从Gemini的技术中受益。”

  谷歌发布语音助手Astra,能力上全面对标GPT-4o

  这次大会,谷歌揭幕了一款名为Project Astra的通用人工智能系统,旨在与OpenAI的GPT-4o展开竞争。

  谷歌DeepMind首席执行官兼联合创始人Demis Hassabis亲自展示了Astra模型。这款模型通过智能手机的摄像头捕捉并分析周围环境,还能与用户进行实时对话。

  在演示中,用户手持手机,将摄像头对准办公室的不同角落,并通过语言与系统进行交互。例如,当用户发出指令“请告诉我智能眼镜在哪里”时,Astra能够迅速识别物体,并与用户进行实时的语音交流。同时,它能成功地识别出代码序列、为电路图提出改进建议、通过镜头“看到”伦敦国王十字区等等。

  大会上,谷歌官方演示了这款系统与AR眼镜的结合使用,预示着它在日常生活场景中的广泛应用潜力。目前该应用仍处于原型阶段,但谷歌表示,计划在今年晚些时候正式推出。

  据介绍,谷歌在Gemini的基础上开发了Astra的原型,可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。通过语音模型,谷歌也强化了智能助手的说话能力,让其能够给出更快速地回应。

  不过,在演示视频中,谷歌AI助手的回应速度似乎还是会比GPT-4o稍慢一些,语音所表现出的感情色彩也平淡一些。

  前一天发布的GPT-4o多模态大模型,相较于GPT-4 Trubo速度更快、价格也更便宜。直播过程中,两位OpenAI的员工向大家展示了GPT-4o的更新细节,比如它能感知用户情绪、具备不同情绪的声音、实时视觉功能和更即时的语音交互。其中,ChatGPT-4o还能通过前置摄像头观察用户的面部表情,检测其情绪。

  有评论称,这个演示显示,GPT-4o让聊天机器人不再那么机械冷漠,而是更加接近真实人类,能够理解并表达情绪,还可以读取人类的情绪,但读取还有一点困难。

  有业内人士评价,从演示上看,Astra的视觉理解能力确实让人印象深刻,但在交互体验上要比GPT-4o实时演示的能力要差许多。无论是响应时长、语音的情感丰富度、可打断等方面,GPT-4o的交互体验似乎更自然。

  发布视频生成模型Veo反击Sora,视觉效果颇为惊艳

  在AI生成视频方面,谷歌宣布推出视频生成模型 Veo,能够生成分辨率最高达1080p的高质量视频,时长可以超过一分钟,涵盖多种电影和视觉风格。

  据谷歌介绍,Veo在理解视频内容、渲染高清图像、模拟物理原理等方面都有所突破,能精准捕捉“延时摄影”、“航拍风景”等电影术语,并将其转化为生动的视觉表达。并具有更高的连贯性和一致性,人物、动物和物体的动作也更加逼真,视觉效果颇为惊艳。

  Veo生成的视频

  本着“打不过就加入”原则,很多艺术家已在尝试这个项目。谷歌展示了与电影制片人唐纳德·格洛弗(Donald Glover)及其创意工作室吉尔加(Gilga)的一些合作,以及艺术家Wyclef Jean,Marc Rebillet和词曲作者Justin Tranter在音乐AI沙盒的帮助下发布的新演示录音。

  早前OpenAI发布首个文生视频模型Sora,在网上迅速刷屏,不少网友跃跃欲试。Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频,呈现“具有多个角色、特定类型的动作,以及主题和背景的准确细节”的复杂场景。

  但OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系。多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。

  对于Veo用户,可以通过点击“扩展”按钮,持续增加视频的时长,最终达到了1分10秒,超过了Sora的时长。至于它有哪些不足之处,目前暂无定论,还有待用户体验。

  目前,Veo已经开始在谷歌官网开放试用。此外,谷歌还在积极探索更多功能,使Veo能够制作故事板和更长的场景,进一步拓展其应用场景和创作空间。

  在这次Google I/O开发者大会上,AI依旧是所有话题的中心,几乎每一个功能更新都与AI紧密相关。例如,谷歌升级搜索引擎,还更新升级了Gemini1.5Pro版本,同时推出Gemini1.5Flash轻量化小模型。

  根据发布会最后的官方统计,这场长达 110 分钟的主题演讲中,谷歌总共提到了121次AI。生成式AI的竞争,在此刻达到新的高潮。

  这场AI的大角逐到底谁能最后胜出?目前尚无定论。从本次发布会的展示来看,谷歌和OpenAI之间的差距似乎正在逐渐缩小。两家公司不仅在AI领域进行激烈的角逐,并且都在努力推动AI应用于更广泛的场景。

  尽管我们从谷歌的搜索产品、模型产品上看到了谷歌的疲态和创新的缺失,外界评论称,和GPT-4o不到30分钟的发布会相比,谷歌“缺乏惊喜”。但从生态和用户积累上,谷歌依然具有先天优势。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500