开源、偏写实、有质感！腾讯混元文生视频“出道”_腾讯控股(hk00700)股吧

股吧首页 > 腾讯控股吧 > 正文

最近访问：

腾讯控股吧

返回腾讯控股吧>>

- 重要股东股权质押数据全览

腾讯控股资讯

发表于 2024-12-03 22:27:10 股吧网页版

开源、偏写实、有质感！腾讯混元文生视频“出道”

来源：金羊网作者：王丹阳

　　12月3日，备受外界关注的腾讯混元大模型公布最新进展：继年初文生文、文生图、3D生成之后，在2024年年尾正式上线视频生成能力。同时，腾讯宣布开源该视频生成大模型，参数量130亿，是当前最大的视频开源模型。

　　“用户只需要输入一段描述，即可生成视频。”腾讯混元相关负责人透露，目前生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。

　　该模型已上线腾讯元宝APP，用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入，目前API同步开放内测申请。

　　偏写实风格，人物表现力相对出色

　　在与国内外多个顶尖模型的评测对比显示，混元视频生成模型在人物、人造场所等场景下表现尤为出色。

　　比如，在冲浪、跳舞等大幅度运动画面的生成中，腾讯混元可以生成非常流畅、合理的运动镜头，物体不易出现变形；光影反射基本符合物理规律，在镜面或者照镜子场景中，可以做到镜面内外动作一致。同时，模型还可以实现在画面主角保持不变的情况下自动切镜头，这是业界大部分模型所不具备的能力。

　　例如在提示词：超大海浪，冲浪者在浪花上起跳，完成空中转体。

　　大模型视频摄影机从海浪内部穿越而出，捕捉阳光透过海水的瞬间。水花在空中形成完美弧线，冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

　　小人脸、高速镜头等场景“有质感”

　　此外，混元的领先能力主要源于其技术创新。其基于跟Sora类似的DiT架构，并在架构设计上进行多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循，其具备强大的语义跟随能力，更好地应对多个主体描绘，实现更加细致的指令和画面呈现；采用统一的全注意力机制，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换；通过先进的图像视频混合VAE（3D 变分编码器），让模型在细节表现有明显提升，特别是小人脸、高速镜头等场景。

　　《羊城晚报》等媒体已“尝鲜”使用

　　此外，腾讯混元视频生成模型画面具备高质感，可用于工业级商业场景例如广告宣传、动画制作、创意视频生成等场景。此前，《人民日报》、央视网、新华社、《羊城晚报》《南方都市报》等多家媒体，已经率先将腾讯混元视频生成能力用于创意视频制作，制作了多部优秀作品。

　　目前，腾讯宣布开源该视频生成大模型已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费使用和开发生态插件。自年初以来，腾讯混元系列模型的开源速度不断加快。此前，腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。

　　至此，腾讯混元系列大模型已实现全面开源。同时，国内6个大模型主流厂商，已有4家推出生视频能力的大模型。

（文章来源：金羊网） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》