此前一直犹抱琵琶半遮面的快手大模型终于亮相了。7月6日,在2024世界人工智能大会(WAIC)期间,短视频平台快手旗下的大模型首次集体登场,同时,视频生成大模型可灵以及图像生成大模型可图等产品升级。
据悉,继图生视频、视频续写功能发布之后,可灵在一个月内迎来了第三次重大升级,网页端在当日公布上线。创作者单次生成的文生视频时长增加至10秒。同时,图像生成大模型可图则宣布开源。
![](https://np-newspic.dfcfw.com/download/D25734767785219012821_w1080h645.jpg)
“追赶”Sora 网页端更便于创作者使用
快手高级副总裁、主站业务与社区科学线负责人盖坤表示,快手搭建了以快意语言大模型、推荐大模型、视觉生成大模型为核心的大模型矩阵,覆盖内容理解、分发、生成等多个层面,并深度服务快手的商业生态场景。其中,快手的推荐大模型SIM,其下一代架构ACT预计每日将为App增加4亿分钟的用户观看时长,提升用户黏性和活跃度。
今年初OpenAI公布Sora,视频生成大模型就成为全球AI行业的“爆点”,然而,哪家能够推出首个用户可用的视频生成大模型则成为业界焦点。作为国内短视频平台,快手不断加速在该领域的研发速度,今年6月初,可灵发布文生视频功能,并开放内测,在本届大会上,可灵网页端上线,不仅国内,还是海外的视频领域都引来广泛讨论。同时,本次可灵AI基础模型再度升级,推出更为清晰的高画质版以及首尾帧控制、镜头控制等全新编辑能力。目前,能单次生成的文生视频时长增加至10s,是行业中对用户开放使用可实现的最长时长。业内人士称,网页端能为创作者提供更专业、更精细的画质以及更多的功能。平台数据显示,截至目前,已有超过50万用户申请可灵的内测资格,视频生成数量达700万。
至于图像生成大模型领域,盖坤表示,可图大模型集成了平台在大语言模型领域的深厚积累。通过数十亿中文语料的训练,其综合性能超过了SDXL/SD3等开源模型以及Midjourney等闭源模型。可图宣布开源,旨在激发行业活力,共建一个更为繁荣的文生图大模型社区生态。
文/广州日报新花城记者:文静
图/广州日报新花城记者:文静
广州日报新花城编辑:龙嘉丽