AI圈真的太“卷”了!幾乎每隔一段時間就會有新品出現,給人帶來驚喜。
谷歌最近就發佈了全新生成式AI模型“Lumiere”,能以文字創造逼真視頻,完全沒有抖動或閃現。
ADVERTISEMENT
OpenAI也不遑多讓,日前才向全球展示文本轉視頻模型“Sora”,可以生成長達1分鐘的高清視頻。然後在一個視頻裡面創建多個鏡頭視角。這兩款新品完全顛覆了AI視頻的遊戲規則,也為影視界帶來新嘗試。但眾人亦擔憂,未來會不會出現大量逼真的造假視頻。
報道:本刊 林德成
在Lumiere的演示視頻裡面,17世紀荷蘭畫家約翰內斯.維米爾創作的《戴珍珠耳環的少女》油畫突然變成了視頻,還能對你眨眼微笑,真的令人大開眼界。同時間,Lumiere還能模仿圖片風格,然後在生成視頻時應用這個風格。另外,Lumiere還具備編輯視頻內容的功能,只需用鼠標框選物件,並輸入提示詞,它就能將連身裙變成金色晚禮服,日後想修改視頻也完全沒問題。
為何Lumiere能夠創建逼真視頻?這是因為它採用了一種名為“Space-Time U-Net”(STUNet)的時空擴散模型來生成影像。有別於以往的AI生成視頻模型,它不是將靜態圖像拼接成視頻,而是直接從頭到尾生成一個長達5秒(16fps)的視頻。通過STUNet技術,Lumiere能夠計算出物品或人物在視頻裡面的位置,以及如何移動和變化,讓整個動作畫面變得連貫流暢。
演示視頻裡面,谷歌展示了Lumiere的6項功能,它不僅能夠以文字生視頻,用戶還可以上傳圖片和視頻,讓AI幫你“動刀”。在圖片方面,它可以將圖片秒變視頻、模仿圖片風格生成同風格的視頻,以及讓圖片的局部區域“動”起來(Cinemagraphs);視頻方面,Lumiere能夠轉換視頻風格,比如變成紙雕、積木或花卉的風格。同時可以編輯視頻,替換視頻中的某個物件(Inpainting)。
相較於Stable Video Diffusion的25幀視頻,Lumiere則可以生成80幀的視頻。
OpenAI可生成最長1分鐘視頻
對比Lumiere,OpenAI的文本轉視頻模型Sora似乎更具優勢。目前大部分AI模型只能生成幾秒鐘的視頻,而它竟然能夠生成長達1分鐘的視頻。
根據官網資料,Sora是一款擴散模型,並在DALL-E和GPT模型的研究基礎上演化而成。通過演示視頻,Sora有很強的實力,可以創建出一個很複雜的場景,比如有很多個人物角色、特定動作,還有精準的主題和背景。“該模型不僅能夠理解用戶在提示中所提出的要求,還能理解這些東西在現實世界裡面的運動模式。”
此外,Sora可以在一個視頻裡面創建多個鏡頭視角,比方說從一個無人機的視角,拉近到一箇中景,使到整個畫面變得豐富和有動感。不過,Sora難以模擬出一些真實世界的物理現象和因果關係。例如一個人咬了一口餅乾,但餅乾上面卻沒有咬痕。有時候,Sora還會混淆提示詞中的細節,例如左右的方向,以及無法跟隨攝像機的軌跡移動。
除了文本轉視頻,Sora還可以將兩個不同主題場景的視頻無縫接軌,變成一個看似流暢又充滿奇幻想像的視頻。
現階段,OpenAI正在為Sora進行“紅隊演練”(red-teaming)安全測試,未公開給大眾使用,只有少數研究者和影片創作者才有機會試用。
相關稿件: 【潮風向】炸了世界又換臉 數字王國用AI玩瘋電影 【潮風向】《芭本海默》“橫空出世” AI電影不再是天方夜譚
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT