未发布文章,仅支持15分钟预览

紫牛新闻记者实测对比:Sora远超现有文生视频水准

{{sourceReset(detailData.source)}}

{{dynamicData.sub_info.subject_name}} 紫牛新闻

{{item.reporter_name}}

{{item.tag}}

+ 关注

近日,OpenAI发布了全新的文生视频模型Sora,引发了业内外的广泛关注。许多人预测,这一创新技术将彻底颠覆AI视频领域。为了探究Sora的真正实力,扬子晚报/紫牛新闻记者进行了实测对比。在本次测试中,我们选择了目前业界领先的文生视频模型Runway作为参照。Runway以其出色的表现,已经在这一领域树立了较高的标杆。然而,在与Sora的对比中,Runway的表现像是落后了一个时代。在测试中,我们使用了相同的描述输入,分别让Runway和Sora生成相应的视频。结果显示,虽然Runway能够准确理解文字描述并生成相应的视频,但在细节处理和动作流畅性方面,却与Sora存在明显的差距。

现有模型已经足够好了

Sora表现“惊为天人”

目前Runway有三个功能,分别为“根据文字生成视频(文生视频)”、“根据图片生成视频”、“根据图片及文字生成视频”,由于Sora只开放了文生视频功能,所以本次对比测试仅针对这个功能。

第一个测试的描述为“Step-printing scene of a person running, cinematic film shot in 35mm.(用35毫米胶片拍摄出的单人跑者)”,记者将这段话描述输入Runway,生成多个4秒钟的视频。从反馈结果来看,Runway生成视频全部带有胶片特效,可见Runway已经能够理解并生成胶片拍出的视频效果。

在跑者方面,Runway生成的大部分视频都只有下半身,少数全身的也只有背影,没有面部细节。在细节处理上,Runway能够生成跑鞋、袜子、衣裤,但是在阴影处理上略欠火候,比如视频中展示的是人物下半身,而地上的阴影也只有下半身,让人“细思极恐”,而部分片段也还会出现“倒着跑”、“一个人三条腿”等明显差错。不过在近20次生成后,还是能挑出几段还不错的,在这些视频中,除了奔跑时腿部和脚步存在变形外,Runway的结果几近完美,尤其是前1-2秒,几乎看不出任何破绽。

客观来说,Runway给到的结果已经足够优秀,但奈何Sora表现“惊为天人”,在同样描述Sora给到的视频中,跑者动作十分自然,几乎看不出关节处变形的情况,一眼看去几乎乱真,而且Sora输出视频时长达17秒。不过Sora视频也存在一些问题,比如跑步机的质感太差、跑步机上跑垫是静止的、人物背影不合理、人物头发过度不自然等。

那如果给到描述再多一些,生成的对象也由人变成相对简单的机械呢?

第二段测试的描述为,“The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. ”(镜头跟随在一辆带黑色车顶行李架的白色复古SUV后面,它在陡峭的山坡上加速行驶在一条被松树包围的陡峭土路上,轮胎上的灰尘飞溅,阳光照射在SUV上,有着温暖的光芒。)

这时候Runway的表现就几乎完美,从生成的视频来看,除了车轮没有在滚动、以及有几次汽车是反着开的,Runway生成的视频没有太多瑕疵。不过这段描述在Sora生成的视频中表现更出色,和上面一样,Runway的视频只有4秒,并且只有一个场景,而Sora的生成的视频长达20秒,且细节方面处理的更好,当然瑕疵也有,Sora生成的这辆SUV没有受到路面影响,有点像漂浮行走的。

另外再说一点,Runway在处理中文话术上有不足,例如记者输入“白色SUV”,最终生成的会是橙色的,而用英文则没有这样的问题。

现有模型更像是会动的图片

而Sora是真正意义上的视频

总结一下,现有的文生视频模型Runway在理解人类语言上基本没有问题,并且能够准确的按要求生成视频,要求外的部分也能自行补充,但是它只能生成4秒的,并且在处理复杂动作(例如跑步)时会崩,相比视频,它生成的更像是一张会动的图片(只能有一个镜头)。

而Sora无论是在细节处理上更胜一筹,在镜头切换、衔接上确实做到远超Runway的水准。由于我们的语言无法表达出一张图片所有的特征,AI会在满足我们需求的情况下,自行补充其余的特征,因此每次使用AI生成的图片都是不同的。

由于Sora还未以公开形式开放,本次对比中Sora生成的视频都是其官网提供的,而Runway生成的视频则是记者经多次生成,然后在其中择优选择。文生视频近几年刚刚兴起,Runway已经做得足够好了,而Sora的诞生确实像是降维打击,这才显得Runway像“上个时代”的东西。

扬子晚报/紫牛新闻记者 姜天圣


校对 王菲

编辑 : 孙燕

{{dynamicData.sub_info ? dynamicData.sub_info.subject_name : dynamicData.event_info.title_short}} {{dynamicData.sub_info ? dynamicData.sub_info.subject_desc : dynamicData.event_info.brief}}
{{dynamicData.sub_info ? '+ 关注' : '+ 追踪'}}
文章未发布,请后台刷新重置预览