AI圈真的太“卷”了!几乎每隔一段时间就会有新品出现,给人带来惊喜。
谷歌最近就发布了全新生成式AI模型“Lumiere”,能以文字创造逼真视频,完全没有抖动或闪现。
ADVERTISEMENT
OpenAI也不遑多让,日前才向全球展示文本转视频模型“Sora”,可以生成长达1分钟的高清视频。然后在一个视频里面创建多个镜头视角。这两款新品完全颠覆了AI视频的游戏规则,也为影视界带来新尝试。但众人亦担忧,未来会不会出现大量逼真的造假视频。
报道:本刊 林德成
在Lumiere的演示视频里面,17世纪荷兰画家约翰内斯.维米尔创作的《戴珍珠耳环的少女》油画突然变成了视频,还能对你眨眼微笑,真的令人大开眼界。同时间,Lumiere还能模仿图片风格,然后在生成视频时应用这个风格。另外,Lumiere还具备编辑视频内容的功能,只需用鼠标框选物件,并输入提示词,它就能将连身裙变成金色晚礼服,日后想修改视频也完全没问题。
为何Lumiere能够创建逼真视频?这是因为它采用了一种名为“Space-Time U-Net”(STUNet)的时空扩散模型来生成影像。有别于以往的AI生成视频模型,它不是将静态图像拼接成视频,而是直接从头到尾生成一个长达5秒(16fps)的视频。通过STUNet技术,Lumiere能够计算出物品或人物在视频里面的位置,以及如何移动和变化,让整个动作画面变得连贯流畅。
演示视频里面,谷歌展示了Lumiere的6项功能,它不仅能够以文字生视频,用户还可以上传图片和视频,让AI帮你“动刀”。在图片方面,它可以将图片秒变视频、模仿图片风格生成同风格的视频,以及让图片的局部区域“动”起来(Cinemagraphs);视频方面,Lumiere能够转换视频风格,比如变成纸雕、积木或花卉的风格。同时可以编辑视频,替换视频中的某个物件(Inpainting)。
相较于Stable Video Diffusion的25帧视频,Lumiere则可以生成80帧的视频。
OpenAI可生成最长1分钟视频
对比Lumiere,OpenAI的文本转视频模型Sora似乎更具优势。目前大部分AI模型只能生成几秒钟的视频,而它竟然能够生成长达1分钟的视频。
根据官网资料,Sora是一款扩散模型,并在DALL-E和GPT模型的研究基础上演化而成。通过演示视频,Sora有很强的实力,可以创建出一个很复杂的场景,比如有很多个人物角色、特定动作,还有精准的主题和背景。“该模型不仅能够理解用户在提示中所提出的要求,还能理解这些东西在现实世界里面的运动模式。”
此外,Sora可以在一个视频里面创建多个镜头视角,比方说从一个无人机的视角,拉近到一个中景,使到整个画面变得丰富和有动感。不过,Sora难以模拟出一些真实世界的物理现象和因果关系。例如一个人咬了一口饼干,但饼干上面却没有咬痕。有时候,Sora还会混淆提示词中的细节,例如左右的方向,以及无法跟随摄像机的轨迹移动。
除了文本转视频,Sora还可以将两个不同主题场景的视频无缝接轨,变成一个看似流畅又充满奇幻想像的视频。
现阶段,OpenAI正在为Sora进行“红队演练”(red-teaming)安全测试,未公开给大众使用,只有少数研究者和影片创作者才有机会试用。
相关稿件: 【潮风向】炸了世界又换脸 数字王国用AI玩疯电影 【潮风向】《芭本海默》“横空出世” AI电影不再是天方夜谭
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT