“还记得2024年2月16日,大过年的,大家兴奋得一夜没睡,被Sora放出来的Demo震惊。快一年过去了,奥尔特曼终于放出了Sora,眼前一黑的是,订阅可以无限生成1080p视频的pro模式高达200刀!”AIGC创作者陈微感慨。
陈微(@尾鳍Vicky)毕业于北京电影学院,是一名青年导演兼编剧,同时也是AIGC创作领域的KOL,与多个视频生成平台都有合作。12月10日,Sora发布的第一时间陈微就“杀”进了网址注册,尽管价格昂贵,但毕竟Sora是第一个放出产品样片的DiT产品,“硬着头皮都在下单”。
在刚放出网址的那晚,Sora访问量暴增,官方在10日凌晨停止注册,而在临关闭之前,与陈微一样成功注册的还有AI Talk主理人、AIGC创作者汗青和AI博主@秋芝2046,这些创作者群体是未来视频生成的主流客户。为Sora“氪”近1500元,能出什么样的效果,钱花得值不值?
在经历了将近一年DiT技术井喷式爆发之后,创作者们对Sora的期待值已经没有那么高,国内的可灵、即梦、海螺以及国外的Runway、Luma等各种DiT架构的视频模型效果已经不差。尽管如此,Sora也未达到很多人的预期,虽然产品体验上有亮点,但底层能力和同类产品没有拉开差距,肢体消失、东西乱飞的画面仍然存在,也和所有的AI视频一样需要“抽卡”。
上海交通大学电子系教授、博导倪冰冰也体验了Sora,他对第一财经表示,团队从几个维度对Sora以及几个头部的国产视频生成工具进行对比,发现这次的Sora版本并不表现得比国产模型好,甚至在一些方面如一致性上,显著不如国产模型。
视频生成赛道还在继续卷,一年里国内外已经发布了数十个产品,在年末这一趋势仍未停止,谷歌刚刚迭代推出了Veo2,不少人觉得在物理规律的模拟上比Sora更好。但未来谁能留在牌桌,现在还无法下定论。
起大早赶晚集
年初Sora推出时大家惊呼“现实不存在了”,年末,“难产”10个月的Sora终于正式向用户开放。开放初期不少关键词还是 “王者归来”,但随着更多用户氪金体验后,评价很快反转,失望、不及预期是更多人的反馈。
“那天晚上发布之后,部分媒体是为了赶早,加上当时很卡顿,没有真正测试它的效果。第二天我们真正去测试的人刷完了积分,体验了每个功能点后,我们认为它生成失败率很高,并没有之前预期的惊艳。”陈微体验后认为,Sora的故事板功能和文生视频确实很好,然而,其图生视频和整体模型并未达到预期,“毕竟国内这类AI视频模型平台大家都已经用了这么久了”。
视频生成模型往往需要生成多次才能得到一个可用的片段,业内将此称之为“抽卡”。 陈微发现,Sora的抽卡频次仍然很高,“我的Demo中可以看到它无法区分物理方向,例如让一只狐狸向前行走,它会向后跑,女孩子头发飘动的物理识别不佳”。
秋芝对记者表示,年初出来时Sora带来的震撼几乎是全民知晓的,放出的素材也是之前没有见过的,OpenAI将大家的期待值拉得非常高,但发布后却发现,底层模型能力并未拉开差距,此前提出的世界模型、真正理解物理规律等方面的能力都还没有。
“Sora的不及预期是可以预见的。”某AI公司产品经理布莱恩表示,Sora的问题在于,文生视频能理解的概念有限,整体出片率低,复杂场景生成的东西基本用不了,而图生视频会严重偏离原始图片的风格,场景之间连贯性不足。商业化是所有产品都需要考量的因素,布莱恩认为,Sora目前的文生视频也还不具备商业化的条件。
Sora之所以引来使用者如此多的吐槽,更大原因是其“错误的时间,并不领先的效果”,Sora推迟发布的这10个月,国内外一批视频大模型相继跟随DiT架构路线发布新产品,甚至经历了多轮快速迭代,而此时赶了个晚集的Sora,并没有取得领先。
今年AI圈的视频生成大战从Sora开始,4月国内生数科技发布视频大模型Vidu,6月快手发布视频生成模型可灵,Luma AI发布Dream Machine,Runway在7月宣布Gen-3 Alpha向所有用户开放,同月爱诗科技发布PixVerse V2,随后智谱正式发布清影视频……短短一年行业目睹了几十款视频生成模型的问世。
在众多竞争者中,目前国内创作者用得较多的头部产品包括字节跳动的即梦、快手的可灵、Minimax的海螺,在国外则有Runway、Luma等。
倪冰冰是国内最早开展视觉内容智能生成研究的学者之一。他告诉记者,团队从细节保留、物理规律遵守、语义正确性、转场一致性等几个维度对Sora以及几个头部的国产视频生成工具进行对比,得出的结论是在这些维度上,这次的Sora版本并不表现得比国产模型好,甚至在一些方面比如一致性上,比国产模型显著不如。
“当下国内的AI视频产品追得很紧、也很卷,大家已经看过太多好的效果了,随手应付的4秒时代已经回不去了。”陈微表示,除了模型能力,用户也很在乎抽卡率、交互、套餐性价比等等,Sora目前不管从哪个角度来对比,都没有足够优势。她对记者表示,如果纯粹只是为了做AI视频,200美元别买,20美元也不太有必要买。
智谱CEO张鹏在一场论坛上评估Sora时指出,Sora的效果离自己的预期有一点偏差。如果看技术指标,国内有的视频生成模型不比Sora差。但视频模型的比拼不是简单地对比参数,而是如何产生实际的应用、产生生产力。张鹏认为,Sora这次发布把很大的精力放在了产品而非模型上,比如视频编辑能力、工作流,这是面向用户需求的转变。
此次Sora展示了一些新功能,包括用户普遍反馈好用的故事板功能,可以用文字、图片、视频更精准地控制同段时间内的镜头运动,以及可以用recut(重新剪辑)功能修整视频重新扩展生成,Remix工具可以替换、删除或重新设计视频中的元素,Loop工具则可以生成无缝衔接的重复视频等等。
这些新功能让Sora生成的视频方向更加可控。不过,陈微认为,在图生模型能力这么差的前提下,这些功能对她来说“都是白搭”。她提到,目前大家的工作流仍然是依靠图生视频,因为商业化必须画面可控、稳定和一致,Sora费劲心思将功能和交互设计得很有新意,但核心的图生模型能力这么差是很大一个问题。
200美元值不值
“肠子都悔青了,还我200刀。”有用户体验Sora后在社交媒体反馈。考虑到Sora并没有大幅领先竞品,有从业者认为,这个价格设计过于昂贵了。
“如果不是刚需,月费近1500元确实有些昂贵。”陈微表示,但行业其他同类竞品的价格也并不便宜,作为商业化团队是能负担这一支出的。此外,200美元是一个ChatGPT Pro会员入场券,除了能无限生成视频外,还能无限制体验OpenAI推出的GPT-4o和o1、新推出的通话功能等。
“作为AI重度使用者的创作者来说,200美元是划算的。”秋芝也认为。
此次Sora并没有单独作为产品定价,OpenAI给出的方案是,Sora Turbo将免费提供给ChatGPT Plus和Pro用户,每月20美元(约合人民币145元)的Plus用户,每月最多可以生成50个480P分辨率的优先视频;Pro订阅者则最多可生成500个1080p的优先视频,此外慢速视频无限量生成,可下载无水印版视频,对应每月费用为200美元(约合1450元)。
不过,创作者告诉记者,500个优先视频是保守估计,由于Sora采用的是积分制定价策略,需要耗费的积分因分辨率和持续时间而异,如果都是生成较高质量的情况下,大概只能生成几十条视频。不过,在优先视频用完之后,创作者普遍认为,慢速视频目前也并不慢,2-3分钟即可生成结果,影响并不大。
陈微经历了近两年视频模型的发展,她对价格已经有了预期,例如,国外头部视频模型Runway的无限订阅一个月费用是95美元(约692人民币),国内视频模型海螺的无限生成高级会员价格是每月666元,快手的可灵最高档会员是666元,包含800个视频生成,没有无限生成的套餐。
陈微此前从事的是传统影视,“以前拍摄时制作费很高,例如租摄影机的费用、人员工资以及场景费等,制作视频动辄花费几千甚至上万元。”她认为,对于非专业用户而言,只是为新鲜购买完之后就会感觉价格偏贵,但对于从事专业视频制作的人来说,从各个平台购买会员也是正常费用支出,制作商业作品都会承担相应的费用。
AI Talk是国内第一批使用AI制作视频的公司,背后的主理人汗青毕业于清华美院,在互联网大厂经历了跌宕起伏的十年后,他选择加入这一轮AI创业潮流,从事AI数字艺术创作。
谈及Sora的价格,汗青对记者表示,作为一个有相对健康现金流的团队,对这些商品的价格并不敏感,“只要有一个商业合作,成本就能覆盖住,最终依靠AI工具赚取的肯定不止200美元。它会成为我的成本,比我招一位员工的价格便宜很多。”
在Sora开放第一天,汗青就充值了Pro会员,在充分体验后他认为,Sora确实有做得很糟糕的地方,但是同时他也看到了模型的潜力。在他用Sora完成的一支视频中,有两段画面让他印象深刻。
“其中一部分是独角兽展翅往上飞的那一段,还有一个小朋友坐在购物车里往前进的特写画面,跑了20秒人物表情都很真实。”在这两段画面里,汗青看到了Sora模型更大的潜力,他认为,如果能够有更多时间优化一些点,Sora的模型或许会有更大提升。
尽管OpenAI这家公司最近所做的一系列事情都不靠谱,但汗青认为,它在技术上的累积确实不能小觑。另一点是美学问题,Sora文生视频的画面质量在美学上是较为突出的,如果对画面美感要求较高,“开卡”的成功率会远大于其他模型,这是汗青目前体验到的Sora的优势。
一片吐槽之声中,Sora也并不是没有优点,在此次推出的众多产品功能中,创作者们不少都提到了recut(重新剪辑)功能和故事板功能在行业里的创新。
重新剪辑并非是以往影视创作中的后期剪辑,“以一段7秒的视频为例,Sora可以删除视频中的第1秒和第5秒,仅保留中间的4秒,并进行一个平滑的延展视频。”汗青表示,实际应用非常方便,能解决本来需要图生视频做视频连接的问题。
秋芝在Sora出来的那一晚上就用完了快速视频的积分,充分测试后她认为,在本身的模型上没有太多突出的点,但意外的点是产品和功能做得较多。秋芝认为,最大的亮点是故事板,这在其他同类竞品上暂时没有,是一种完全创新的模式。
以往一个视频模型生成5-10秒镜头,只能用提示词来“假装”控制镜头运动,但Sora的故事板功能可以精确到创作者需要控制的秒数。以一段10秒的视频为例,创作者可以精确到第2秒、第4秒和第6秒要出现什么画面,并填写需要的提示词,由此创作者可以在10秒内控制这个视频大致走向。
陈微介绍,对于传统电影而言,最重要的两点一是画面中演员的表演,其次就是场面调度,即镜头如何变化。“如果能在10秒内的每个点都写清楚我需要什么画面和镜头运动,这一故事板就在某种程度上实现了传统电影制作中的场面调度功能,实现场景的可控。”
但遗憾的是,陈微提到,Sora目前只擅长通过文生视频完成,而图生视频效果差强人意,且用户给出的提示词,模型不一定会完全遵守。
汗青认为,Sora还值得肯定的一点是生成速度,即便优先积分用完,Sora目前的慢速无限视频生成的时间也并不算慢,“一条约15秒的视频,大约一两分钟。”对于汗青这样的商业创作者来说,这是一个值得付费的点,国内部分平台最高出现过需要等待超过20分钟的情况。
“一般用户可能不会介意快慢的事情,但我们的主要工作是不断开卡,因此我非常介意开卡的效率。你不能让我等待太久,时间成本较高,其次,创作想法会被消耗,灵感转瞬即逝。”汗青说。
还未拉开差距
在众多视频模型中,创作者们未来会选择哪些软件?这一问题,大家目前都还无法回答,海内外的头部模型产品,创作者们都同时在接触和尝试,目前谁也无法确定几十家模型大厂,最终哪个能取得胜利。
在创作者经常使用的头部产品中,陈微发现,部分产品在某些细节上能表现得较好,但作为使用者而言,他们无法拉开本质的差距,“原因在于他们使用的底层模型都是DiT或类DiT技术,而细微差别可以通过抽卡来解决”。
目前国内外更新的AI视频模型大部分使用的都是DiT架构,核心问题在于,这一架构下AI无法真正识别物理空间,会导致运动效果有误差。陈微认为,DiT架构可能会比早期第一代视频模型的运动效果更好,但实际上仍无法理解物理规律,圈内经常讨论,如果AI视频需要进一步发展,可能还需要新的技术突破。
倪冰冰告诉第一财经记者,目前基于DiT的方案,通过Scaling law(尺度定律)的思路去提升生成视频的质量,天花板是很明显的。因为视频空间维度太高,无法做到我们所期望的那种高精度、准确性,也无法精确操控生成过程。
“解决这个问题的办法还是要建立一个对视频中所有对象实例及其属性解耦的内容表征方式,这也可以认为是世界模型框架下的一种实现。在这种非像素的新表达下,可以训练高效的与对象和属性对齐的生成式计算网络,才能从本质上解决精度、可操控性和物理规律正确性的问题。”倪冰冰提到,自己的团队一直在做新的表征和计算形式。
在年中Minimax推出海螺视频时,创始人闫俊杰曾对记者表示,做视频模型“这件事还挺难的”。视频的工作复杂度比做文本更难,因为视频的上下文文本天然很长,一个5秒的视频就有几M。
“挑战在于,之前基于文本建的这套底层基础设施怎么来处理数据,怎么来清洗数据,以及怎么来标注。”闫俊杰认为,基础设施需要升级,其次就是耐心,视频开源内容没那么多,需要付出的耐心更大。
过去一年对于AI视频生成来说是一个历史性的时刻,但未来,视频模型厂家需要解决的问题还有很多。行业判断,视频生成还处于一个早期阶段,类比大语言模型,视频生成还处在GPT-3左右的时代。
在未来,哪些厂商能坚持下来,用什么样的技术生态走到最后?谁都不知道。
汗青的一个判断是,未来的模型市场或许会是百花齐放的,并不会像互联网大战那样,只有少数一两家能够留下。他发现,每家模型的“性格”是不同的,就像不同的人有内向、外向,有的可以多讲一些,有些人讲太多不好,模型也是一样。
“如果我需要高写实、高动态时可灵是一个优势,但当我们制作采访视频时,不希望机位动作过大,这时它的高动态效果反而是负担。”汗青认为,不同模型有它所擅长的东西,未来可能创作者不是要甩掉哪一家,而是如何与这些模型共同相处。