• 最近访问:
发表于 2024-12-04 21:07:10 股吧网页版
腾讯进军文生视频赛道 但大规模商业化还需要时间
来源:界面新闻

K图 00700_0

  继快手可灵、字节即梦之后,腾讯混元大模型也在12月3日宣布上线文生视频(text-to-video)能力。目前,C端用户可通过腾讯元宝APP申请试用,企业客户通过腾讯云提供服务接入,API同步开放内测申请。

  文生视频是腾讯混元大模型继文生文、文生图、3D生成之后的又一次业务拓展尝试。与多数厂商不同的是,腾讯选择开源该视频生成模型,其参数量达到130亿,也是当前最大的视频开源模型。

  这一新功能的操作界面并不复杂。用户只需要输入一段描述,即可生成一段5秒时长的视频,目前支持中英文双语输入、多种视频尺寸以及多种视频清晰度。

  目前主流平台支持的免费文生视频体验多在5~6秒之间。腾讯混元的多模态生成技术负责人凯撒表示,视频时长并非技术挑战,而是算力和数据挑战。因为每当时长扩长一倍,算力也将呈平方级上升,在成本上并不划算。大部分影视剧或剪辑作品都是不同镜头的拼接,因此第一版将优先满足基本需求,如果未来有更强烈的长时间镜头需求,再做升级。

  凯撒介绍,混元视频生成模型基于与Sora类似的DiT架构,并在架构设计上进行了多处升级,包括适配了新一代文本编码器提升语义遵循,能够更好地应对多个主体描绘。此外,它的一个代表性特色是,能够实现在画面主角保持不变的情况下自动切镜头,这是目前业界大部分模型所不具备的能力。

  2024年2月,OpenAI发布的文生视频大模型Sora点燃了文生视频赛道。不过, Sora目前并未对普通用户开放,而是仅将测试资格开放给了视觉艺术家、设计师和电影制作人。一种解释是,考虑到今年的美国大选,OpenAI希望竭力避免安全风险,希望在大选之后再全面对外开放。

  而在Sora尚未彻底“亮活”之前,中国厂商已经表现得颇为积极。快手可灵、字节即梦、Minimax旗下海螺AI、阿里巴巴通义万相等都是文生视频领域的代表产品,其中不少已经开始进军海外,并且推出了较为完备的会员付费体系,快速进行商业化变现。

  考虑到算力及数据成本之高,商业化同时是所有相关产品难以避免的话题。腾讯同样为混元设计了商业化路径。由于混元视频生成模型具有高画质优势,可用于工业级商业场景例如广告宣传、动画制作、创意视频生成等场景。

  但由于技术尚未足够成熟,目前市面上的文生视频模型仍然存在一些缺陷。例如生成视频在画质、细节、真实感等方面仍与真实视频存在差距,且用户对视频生成过程的控制能力有限,只能通过修改文本提示来间接影响视频生成效果,而文本与视频的语义匹配度不足,也会导致生成效果不及用户预期。

  “我们确实看到很多产品和模型有先发优势,但自己做的时候却发现,现在视频生成、尤其是是文生视频领域成熟度远没有大家想象的那么高。失败率很高,抽卡太多了。”凯撒表示。“抽卡”指的是文生视频效果不稳定,用户需要多次尝试才能得到符合自己期望的满意画面,就像抽奖一样碰运气。

  这也是腾讯并不急于商业化的原因。凯撒认为,文生视频技术还没有到大规模商业化的程度,仍在技术打磨阶段。因此,腾讯决定在这一阶段推出文生视频模型并将其开源,让更多开发者来使用并基于腾讯混元系列打造应用及服务,也只有更多人来使用,才能更快地将技术推向成熟。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500