• 最近访问:
发表于 2024-11-14 23:25:30 股吧网页版
字节即梦将在Sora发布前上线视频生成模型PixelDance
来源:界面新闻

  11月14日,界面新闻从多个知情人士处获悉,字节跳动视频生成模型PixelDance将很快在即梦AI上线,面向公众开放使用,具体的上线时间将会早于Sora正式发布的时间。

  Runway联合创始人Cristóbal Valenzuela曾在11月9日称,OpenAI计划在大约两周内发布Sora。Cristóbal Valenzuela曝出该消息之前,OpenAI公布了一条联合伦敦艺术家Jon Uriarte创作的短片,似乎是在为Sora的正式发布预热。

  这意味着,PixelDance很可能会在最近几天内发布。界面新闻向字节跳动方面求证此事,截至发稿,对方暂未回应。

  字节跳动在大模型领域一直动作频频。9月24日,该公司一口气发布了豆包视频生成PixelDance、豆包视频生成Seaweed两款大模型,并通过即梦AI和火山引擎面向创作者和企业客户小范围邀测。据知情人士透露,PixelDance除了即将在即梦AI上线之外,还将于近期在豆包开启内测。

  从其此前展示的视频生成效果来看,豆包视频生成模型无论是语义理解能力,多个主体运动的复杂交互画面,还是多镜头切换的内容一致性方面,都表现出不错的效果。

  其中一个视频输入是,“特写个的面部,有些,戴上了副墨镜,这时个男从画右侧进来抱住了她。”视频画面显示,其不仅遵循了这个复杂指令,还能够按指令的时序去完成连续的动作,两个主体之间也能比较顺畅地进行交互,且人物表情较为准确传达了指令所描述的情绪。

  据界面新闻了解,人物动作是当下视频生成模型共同面临的挑战,即使是Sora在人物动作上做得也不够好。OpenAI在今年年初公布的视频样片显示,Sora还是以运镜和基础动作为主,复杂动作较差,但豆包视频模型生成公布的样片在动作上有了明显提升。

  一位多模态大模型科学家对比PixelDance和Sora公布的样片后告诉界面新闻,如果样片效果保真的话,字节跳动的视频生成大模型确实是相当不错。从学术角度或者模型能力角度来说,其肯定达到了Sora的水平,尤其在人物动作上非常棒。

  火山引擎总裁谭待此前也透露,豆包视频模型经过剪映、即梦AI等业务场景的持续打磨和迭代,优化了Transformer结构,大幅提升了豆包视频生成的泛化能力。同时,豆包视频生成模型基于DiT架构,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。在镜头切换时可同时保持主体、风格、氛围的一致性是豆包视频生成模型的技术创新所在。

  而从OpenAI近期公布的最新短片来看,Sora也在着重提升其在人物动作上的能力。该短片处理的是多人坐在椅子上飞行的场景,无论是照片质量还是细节处理上,都更接近照片的水准,人物动作也更加自然。

  若PixelDance正式面向公众开放,或意味着其在技术上已较为成熟。对于豆包视频生成模型的发布节奏,谭待曾透露,豆包系列大模型并不是按照某个固定的时间计划发布的,有好东西就尽快推出。

  “我们的逻辑是推出的产品要质量可靠,有充分的用户反馈,不能是半成品。就像视频和语言模型发布一样,不一定要抢第一,要推出成熟的产品。”谭待说。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500