今天凌晨,OpenAI 從「彈藥庫」里掏出了 AI 視頻生成工具 Sora,瞬間占據(jù)了各大新聞?lì)^條。就連一向和 OpenAI 不對(duì)付的馬斯克也甘心承認(rèn) Sora 的強(qiáng)大,并借此盛贊「在未來的幾年里,人類借助 AI 的力量,將創(chuàng)造出卓越的作品?!?/section>Sora 的強(qiáng)大之處在于能夠根據(jù)文本描述,生成長達(dá) 60 秒連貫流暢的視頻,其中包含細(xì)膩復(fù)雜的場景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng)。對(duì)比其他只能生成短至個(gè)位數(shù)長度的視頻,Sora 的一分鐘時(shí)長無疑起到了掀桌的效果。更為重要的是,無論是在視頻的真實(shí)性、長度、穩(wěn)定性、一致性、分辨率還是對(duì)文本的理解方面,Sora 均展現(xiàn)出了目前最佳的水平。讓我們先來欣賞一下官方發(fā)布的演示視頻片段。Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.在這段視頻中,無人機(jī)視角下的一對(duì)情侶穿梭于繁華的城市街道,美麗的櫻花花瓣伴隨著雪花在空中翩翩起舞。
無需任何預(yù)先示例,Sora 就能改變視頻中的風(fēng)格和環(huán)境。甚至兩個(gè)風(fēng)格迥異的視頻也能平滑連接起來。 Sora 還能文生圖,研究團(tuán)隊(duì)通過在一個(gè)時(shí)間范圍僅為一幀的空間網(wǎng)格里排列高斯噪聲塊來創(chuàng)造出各種尺寸的圖像,最大分辨率達(dá)到了 2048x2048。實(shí)在的 OpenAI 也坦率地承認(rèn)了 Sora 當(dāng)前存在的局限問題,比如它無法模擬復(fù)雜場景的物理效應(yīng),以及理解某些特定因果關(guān)系。舉例來說,它無法精確模擬像玻璃破碎這樣的基本物理互動(dòng)。
相反方向的跑步不過 OpenAI 堅(jiān)信,Sora 目前的能力表明,持續(xù)擴(kuò)展視頻模型是朝著開發(fā)能夠模擬物理和數(shù)字世界及其內(nèi)部的物體、動(dòng)物和人類的有能力的模擬器的一條充滿希望的途徑。世界模型,AI 的下一個(gè)方向?OpenAI 發(fā)現(xiàn),在大規(guī)模訓(xùn)練下,Sora 展示出了一系列引人注目的涌現(xiàn)能力,能夠在一定程度上模擬真實(shí)世界中的人、動(dòng)物和環(huán)境。這些能力并非基于對(duì)三維空間或物體的特定預(yù)設(shè),而是由大規(guī)模數(shù)據(jù)驅(qū)動(dòng)產(chǎn)生的。 三維空間的連貫性:Sora 能生成帶有動(dòng)態(tài)視角變化的視頻。當(dāng)攝像機(jī)位置和角度變動(dòng)時(shí),視頻中的人物和場景元素能夠在三維空間連貫移動(dòng)。 遠(yuǎn)距離連續(xù)性與物體持久性:即使人物、動(dòng)物或物體被遮擋或移出畫面,Sora 也能保持長時(shí)間視頻的連續(xù)性。同樣,它能在同一視頻樣本中多次展示同一角色,并確保外觀一致。 數(shù)字世界的模擬:Sora 還能模擬數(shù)字化過程,如視頻游戲,只需提及「Minecraft」等字樣,就能激發(fā)其相關(guān)能力。OpenAI 將 Sora 視為「能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ)」,相信其能力「將是實(shí)現(xiàn) AGI 的重要里程碑」。對(duì)于 Sora 的到來,英偉達(dá)高級(jí)科學(xué)家 Jim Fan 表示:如果你認(rèn)為 OpenAI 的 Sora 就像 DALL·E 那樣,是一個(gè)用于創(chuàng)意實(shí)驗(yàn)的工具,那你可能需要重新考慮了。
Sora 實(shí)際上是一款基于數(shù)據(jù)的物理模擬引擎,它能夠模擬出真實(shí)或虛構(gòu)的世界。這款模擬器通過去噪和梯度計(jì)算,學(xué)會(huì)了復(fù)雜的圖像渲染、「直觀」的物理行為、長遠(yuǎn)規(guī)劃能力以及語義層面的理解。而這種模型能力的基礎(chǔ)正是世界通用模型,這是一種人工智能系統(tǒng),它的目標(biāo)是建立一個(gè)可以更新狀態(tài)的神經(jīng)網(wǎng)絡(luò)模塊,用以記憶和建模環(huán)境。 這種模型能夠根據(jù)當(dāng)前的觀測(如圖像、狀態(tài)等)和即將采取的動(dòng)作,預(yù)測下一個(gè)可能的觀測。它通過學(xué)習(xí)世界的規(guī)律和常識(shí),模擬環(huán)境中可能的未來事件。實(shí)際上,世界模型并不是什么新鮮的概念,早在去年 12 月,AI 視頻生成的領(lǐng)頭羊 Runway 就官宣下場打造通用世界模型,目的是創(chuàng)建一種與現(xiàn)有的 LLM 不同,并且能夠更真實(shí)模擬現(xiàn)實(shí)世界的人工智能系統(tǒng)。具體來說,世界模型的核心思想是通過記憶歷史經(jīng)驗(yàn)來學(xué)習(xí)世界的運(yùn)作方式,進(jìn)而預(yù)測未來可能發(fā)生的事件。例如,從一段物體下落的錄像中,模型可以根據(jù)當(dāng)前的畫面預(yù)測下一幀的畫面,從而學(xué)習(xí)到物體運(yùn)動(dòng)的物理規(guī)律。圖靈獎(jiǎng)得主 Yann LeCun 也曾提出過類似的概念,并批評(píng)了基于概率生成自回歸的大模型,如 GPT,認(rèn)為這類模型無法破解幻覺難題。LeCun 和他的團(tuán)隊(duì)甚至預(yù)言,GPT 這類模型在未來五年內(nèi)可能會(huì)被淘汰。世界模型可以被看作是人工智能領(lǐng)域中,試圖創(chuàng)建更接近人類智能水平 AI 的一個(gè)研究方向。通過模擬和學(xué)習(xí)真實(shí)世界的環(huán)境和事件,世界模型有潛力推動(dòng) AI 向更高層次的模擬和預(yù)測能力發(fā)展。2 月份的時(shí)候,知名風(fēng)險(xiǎn)投資公司 a16z 的合伙人 Justine Moore 深入分析了 AI 視頻生成領(lǐng)域的現(xiàn)狀。在生成式 AI 逐漸步入大眾視野的兩年間,AI 視頻生成領(lǐng)域迎來了百花齊放,百家爭鳴的繁榮景象。隨著 OpenAI Sora 的加入,AI 視頻生成領(lǐng)域勢必掀起滔天巨浪,現(xiàn)有的主流平臺(tái)如 Runway、Pika 和 Stable Video Diffusion 等都可能會(huì)受到波及。同時(shí),獨(dú)立創(chuàng)作者的游戲規(guī)則將會(huì)徹底改變,任何人只要有創(chuàng)意和想法,就可以使用 Sora 來生成自己的視頻內(nèi)容。創(chuàng)作門檻的降低,也意味著獨(dú)立創(chuàng)作者將會(huì)迎來黃金時(shí)代。正如《三體》中所說,「主不在乎」,無論目前的競爭態(tài)勢如何,AI 視頻生成領(lǐng)域都可能會(huì)被新的技術(shù)和創(chuàng)新所顛覆。而 Sora 的入局僅僅只是個(gè)開始,遠(yuǎn)不是終點(diǎn)。