哈嘍,大家好,木易巷來啦!
剛剛躋身全球第三大初創(chuàng)公司的OpenAI在中國(guó)春節(jié)期間又甩出“王炸”!
繼文本模型ChatGPT和圖像模型Dall-E取得成功之后,Sora的出現(xiàn)讓許多行業(yè)感到興奮和期待,但同時(shí)也帶來了一些不安和擔(dān)憂。
一位匿名從事AI大模型研究多年的人士表示,Sora的推出將首先影響AI視頻和AI圖片領(lǐng)域的競(jìng)爭(zhēng)者,因?yàn)镾ora的出現(xiàn)意味著視頻生成的門檻大幅降低,可能會(huì)對(duì)廣告、影視和短視頻等行業(yè)帶來重大變革。
下面我們一起來了解一下Sora的強(qiáng)大~
Sora是如何實(shí)現(xiàn)如此顛覆性的能力的呢?這就不得不提到其背后的兩項(xiàng)核心技術(shù)突破——Spacetime Patch(時(shí)空Patch)技術(shù)和Diffusion Transformer(DiT,或擴(kuò)散型Transformer)架構(gòu)。
作為一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎,只需要接收一句話,Sora 便可以生成“充滿想象力”“史詩(shī)級(jí)”的大片,這無疑又是一顆投向人類的重磅“炸彈”。
目前官網(wǎng)上已經(jīng)更新了48個(gè)視頻demo,在這些demo中,Sora不僅能準(zhǔn)確呈現(xiàn)細(xì)節(jié),還能理解物體在物理世界中的存在,并生成具有豐富情感的角色。
下面是幾個(gè)畫面:
1、AI想象中的龍年春節(jié),紅旗迎風(fēng)招展,人山人海,兒童們緊隨舞龍隊(duì)伍,好奇地觀望,許多人掏出手機(jī)記錄這壯觀場(chǎng)面,各種人物角色各有各自的行為。
2、一位時(shí)尚女士漫步在東京街頭,周圍是溫暖閃爍的霓虹燈和充滿活力的城市標(biāo)志。
3、通過豎屏超近景視角,展現(xiàn)了一只蜥蜴的細(xì)節(jié)。
在過去的一年多里,AI已在文本和圖片領(lǐng)域取得了成功,視頻領(lǐng)域雖然有進(jìn)展,但仍存在一些不足。然而,從Sora開始,"有視頻有真相"可能也將成為歷史。
盡管OpenAI指出Sora目前存在一些弱點(diǎn),如難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,可能無法理解因果關(guān)系。
1、例如,描述“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”時(shí),狼的數(shù)量可能會(huì)變化,一些狼會(huì)憑空出現(xiàn)或消失。
此外,該模型還可能混淆提示的空間細(xì)節(jié),例如混淆左右等等。
2、例如,描述籃球“穿過籃筐然后爆炸”時(shí),籃球可能沒有被籃筐正確阻擋。
據(jù)報(bào)道,目前Sora已向部分用戶開放,用于評(píng)估關(guān)鍵領(lǐng)域的潛在風(fēng)險(xiǎn)和危害。同時(shí),OpenAI也邀請(qǐng)了一些視覺藝術(shù)家、設(shè)計(jì)師和電影制作人加入,希望他們提供寶貴的反饋,推動(dòng)模型的進(jìn)步,為創(chuàng)意工作者提供更好的支持。
聯(lián)系客服