大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自AI科技評(píng)論
作者:王悅
編輯:陳彩嫻
兩周前的今天,北京時(shí)間 2 月 16 日,OpenAI 、谷歌、Meta、Stability 都在這一時(shí)間節(jié)點(diǎn)前后發(fā)布文生視頻模型成果,但只有 OpenAI 的 Sora 在這場(chǎng)角逐中破圈而出,成功搶占全球的注意力。可以說(shuō),Sora 打響了文生視頻大模型行業(yè) 2024 年的第一炮。
面對(duì) Sora 著實(shí)優(yōu)異的視頻生成效果,短時(shí)間內(nèi) AIGC 行業(yè)內(nèi)掀起一輪又一輪討論,一方面,沒(méi)人想到 OpenAI 的動(dòng)作如此之快,令人激動(dòng)興奮的同時(shí)也來(lái)不及招架,另一方面,也都在為其 “60秒超長(zhǎng)長(zhǎng)度”、“單視頻多角度鏡頭”和“世界模型”的等炸裂的效果震驚,并聲稱(chēng)會(huì)迎來(lái)行業(yè)洗牌。
在對(duì)于 Sora 的各種爭(zhēng)論、預(yù)判熱火朝天、此起彼伏的時(shí)候,AI 科技評(píng)論反觀從最初的 Disco Diffusion 再到 Stable Diffusion 出現(xiàn)的過(guò)程,并和行業(yè)內(nèi)的投資人、技術(shù)專(zhuān)家、學(xué)術(shù)大咖、AIGC創(chuàng)業(yè)者等數(shù)十位行業(yè)人士做出了關(guān)于 Sora 的冷思考。
從長(zhǎng)期的角度來(lái)看 ,不可否認(rèn) Sora 是文生視頻大模型的里程碑事件,標(biāo)志著視頻生成能力上升到新高度。但一些業(yè)內(nèi)人士也指出,“大家要清醒”,Sora 的沖擊也沒(méi)有想象中那么大,不會(huì)對(duì)影視、廣告、內(nèi)容創(chuàng)作等領(lǐng)域產(chǎn)生立竿見(jiàn)影的顛覆性影響,也不一定會(huì)斷了 AIGC 創(chuàng)業(yè)者的后路。
Sora 發(fā)布兩周之際,此時(shí)更需要的不是熱捧,而是降溫。Sora 的影響,不急于在當(dāng)下就說(shuō)完道盡,更需要在接下來(lái) 1—3 年的時(shí)間中且行且看。
Sora 技術(shù)不無(wú)探索空間
Pika 火爆之時(shí),香港大學(xué)計(jì)算機(jī)教授徐東老師稱(chēng)其是文生視頻行業(yè)的曙光——讓世界看到了文生視頻的驚艷效果,但同時(shí)也意識(shí)到,Pika 只是先跑出來(lái)的那個(gè),它離大規(guī)模的用戶(hù)付費(fèi)還有一段距離。
而 Sora 的出現(xiàn),徐東教授則評(píng)價(jià)其是一個(gè)“極大的 breakthrough(突破)”,它不是一個(gè)簡(jiǎn)單的從 ChatGPT-3.0 到 ChatGPT-4.5 的迭代,而是對(duì)之前視覺(jué)模型的一次降維打擊。
60 秒的視頻長(zhǎng)度,讓其他文生視頻產(chǎn)品望塵莫及 Sora 。但其實(shí),跳出生成長(zhǎng)度的考量要素,生成速度也是考量文生視頻大模型的關(guān)鍵指標(biāo)。
一個(gè) 60 秒的、效果驚艷的 AI 視頻,其背后的生成時(shí)間是十分鐘還是一個(gè)小時(shí),對(duì)使用者來(lái)說(shuō)是截然不同的體驗(yàn)。如果生成時(shí)長(zhǎng)在 60 秒以?xún)?nèi),就又會(huì)是另一番驚人的效果。
面對(duì)未來(lái)視頻生成低時(shí)延的要求,背后算力的支持情況是最根本的基礎(chǔ)。預(yù)計(jì)通過(guò)什么方式能夠高效調(diào)用算力去滿足龐大的需求量,這些是 Sora 等文生視頻模型可以探索的空間之一。
解決生成時(shí)長(zhǎng)的一系列問(wèn)題,除了算力之外,石榴科技創(chuàng)始人 Frank 認(rèn)為背后技術(shù)的解決方案也是關(guān)鍵影響因素之一。因?yàn)?Sora 底層是一個(gè)擴(kuò)散模型,如果模型本身有一些限制導(dǎo)致處理的速度達(dá)不到,那生成的時(shí)間確實(shí)快不了,即使算力再?gòu)?qiáng)也用不上。
除了生成視頻的 60 秒時(shí)長(zhǎng)外,世界模型也是 Sora 帶給人們打開(kāi)的新視野。
從世界模型的技術(shù)起源來(lái)說(shuō),Sora 目前的做法和楊立昆最開(kāi)始提出的是不一樣的。Yann LeCun更強(qiáng)調(diào)在空間中去做規(guī)則表達(dá)的理解,即能不能直接在這個(gè)模型中找到被清晰定義的某個(gè)對(duì)象的表達(dá)。
Sora 顯然和這種做法是不同的,他們走了“大力出奇跡”的路子。用基于 Transformer 的 Diffusion 去壓縮,這仍然是一個(gè)數(shù)據(jù)驅(qū)動(dòng)生成式的基本方法。
在這一過(guò)程中能否真正地去反推歸納出中間學(xué)習(xí)到的物理規(guī)律,動(dòng)漫生成「捏Ta」產(chǎn)品創(chuàng)始人胡修涵表示這仍然需要被打一個(gè)問(wèn)號(hào)。如果相信 OpenAI 的哲學(xué)就是“Scaling is everything”,之后可能會(huì)隨著規(guī)模的擴(kuò)大,壓縮效能越來(lái)越強(qiáng),模型就被迫學(xué)會(huì)和總結(jié)到了所有的物理規(guī)律,但是基于現(xiàn)在的模型規(guī)模和效能,還不能直接得出 Sora 是世界模型的結(jié)論。
Frank 持有同樣的觀點(diǎn),并補(bǔ)充道不僅要從物理的意義上來(lái)看,也需要從非物理的角度去思考。作為一個(gè)世界模型,更需要考慮到社會(huì)中的「人情規(guī)律」。就像當(dāng)一個(gè)小寶寶手里的東西被搶走后,Sora 是否能成功地預(yù)測(cè)出來(lái)寶寶會(huì)哭——所以世界模型除了符合物理規(guī)律的演進(jìn)以外,也需要更進(jìn)一步地滿足日常生活當(dāng)中的場(chǎng)景和判斷。
而這種社會(huì)意義上的信息,大部分都不是通過(guò)文字和語(yǔ)音來(lái)表達(dá)的,背后仍然要探索文生視頻模型怎樣才能理解、生成到位。為了實(shí)現(xiàn)這一效果,F(xiàn)rank 認(rèn)為則需要建立表面文字和其背后潛臺(tái)詞之間的對(duì)應(yīng)連接關(guān)系。
基于 OpenAI 冰山一角之下的海量數(shù)據(jù)和一定連接關(guān)系的建立,GPT-4 已經(jīng)展現(xiàn)出它對(duì)于人類(lèi)潛臺(tái)詞、雙關(guān)語(yǔ)句等很多復(fù)雜內(nèi)容的理解率是非常高的,表現(xiàn)得很聰明。
Sora 也同樣值得期待,看它是否能有更多的聯(lián)想,提示一句話,就能理解背后的 10 句話,然后用 10 句話來(lái)去完成一個(gè)更好的作品。
但現(xiàn)階段的視覺(jué)模型 Sora 又不同于之前的大語(yǔ)言模型。在 OpenAI 成立的早期,大部分的研究成果都是開(kāi)源的,甚至數(shù)據(jù)庫(kù)也是放出來(lái)開(kāi)源的。但是現(xiàn)在已經(jīng)不再是開(kāi)源的, Sora 的技術(shù)報(bào)告只對(duì)外講了很宏觀的框架,剩下的都需要同賽道公司自己去探索。
徐東教授認(rèn)為 OpenAI 的閉源,使得追趕探索 OpenAI 成果的工作變得很難。但從社會(huì)宏觀的側(cè)面出發(fā),國(guó)內(nèi)是有必要追趕 Sora 的。
一方面,諸如游戲或其他涉及商業(yè)機(jī)密的行業(yè)跑在 OpenAI 的底層技術(shù)上并不是很合適。
另一方面,文生視頻技術(shù)的攻防問(wèn)題也是更重要的側(cè)面。因?yàn)?Sora 這套技術(shù)會(huì)很容易地生成大量的虛假視頻,之后可能會(huì)被別有用心者用來(lái)散播一些虛假視頻或價(jià)值觀不正確的視頻以引導(dǎo)輿論。面對(duì)這樣的情況,如果都不知道對(duì)手是怎么進(jìn)攻的,那也很難防守。
從應(yīng)用的方面來(lái)講,國(guó)內(nèi)對(duì)于文生視頻的需求是很旺盛的,不能都?jí)Ψビ?OpenAI 的產(chǎn)品。
追趕 Sora 這是一件長(zhǎng)期的事,也需要更多的社會(huì)資源傾斜進(jìn)來(lái)扶持人才,人才是這場(chǎng)新的 AI 競(jìng)爭(zhēng)的核心。
目前,港大的羅平教授帶領(lǐng)學(xué)生們正一點(diǎn)點(diǎn)摸索文生視頻,在幾乎沒(méi)有卡的情況下,研究出來(lái)跟 Sora 最像的技術(shù)路線。
在 Sora 沖擊下的 AI 競(jìng)爭(zhēng)格局中,做產(chǎn)品應(yīng)用是一個(gè)更安全的方式,國(guó)內(nèi)同樣也需要深耕追趕技術(shù)的公司。因?yàn)闊o(wú)論做任何產(chǎn)品,如果技術(shù)底座不堅(jiān)實(shí),又沒(méi)人開(kāi)源,好產(chǎn)品是很難問(wèn)世的。況且,在 Sora 的基礎(chǔ)上做應(yīng)用,如果 Sora 賣(mài)得很貴的話,那么產(chǎn)品的意義也不會(huì)很大。
內(nèi)容生態(tài)不會(huì)被輕易撼動(dòng)
Sora 強(qiáng)悍的內(nèi)容生成能力,最先沖擊到的就是和視頻相關(guān)的內(nèi)容產(chǎn)業(yè)。
Sora 的出現(xiàn)的確會(huì)讓一些大廠緊張,比如以字節(jié)剪映為代表的智能剪輯工具。某大廠內(nèi)部人士透露,Sora 對(duì)視頻的沖擊確實(shí)挺大的,內(nèi)部還沒(méi)有太想清楚這個(gè)事具體要怎么玩。
徐東教授認(rèn)為,剪映作為一種剪輯工具是成熟的產(chǎn)品,且技術(shù)特點(diǎn)沒(méi)那么強(qiáng),在有擅長(zhǎng)工程化、產(chǎn)品化人才的情況下,Sora 也可能做出來(lái) 。而文生視頻的技術(shù)則是重磅功能,剪映如果沒(méi)有辦法很好地提高質(zhì)量服務(wù),很可能在 Sora 積累到足夠的用戶(hù)量之后被降維打擊。
但如果剪映自己做得好,智能生成能力會(huì)成為核心創(chuàng)作流程中核心的步驟。如果剪映不這么做,那么剪映的意義長(zhǎng)期來(lái)看肯定是會(huì)被消磨掉很大一部分。
在 Sora 和抖音等內(nèi)容生成平臺(tái)的關(guān)系上,胡修涵認(rèn)為 Sora 不會(huì)是去直接取代抖音生態(tài)位,因?yàn)閱渭兊?AIGC 并不能取代分發(fā)價(jià)值。而 Sora 不應(yīng)該是一個(gè)素材提供框架,更加是個(gè)模板生產(chǎn)器,如果 Sora 的智能得到很好的運(yùn)用,它會(huì)變成一個(gè)更強(qiáng)的模板格式,而不會(huì)構(gòu)成中間的每段素材。
但完全由 AI 生成的虛假視頻內(nèi)容,是會(huì)對(duì)平臺(tái)的內(nèi)容產(chǎn)生影響。前快手全景視頻業(yè)務(wù)負(fù)責(zé)人、英俊文化聯(lián)合創(chuàng)始人馬英武表示,相比較于流量處于二線位置的內(nèi)容平臺(tái),Sora 更多地會(huì)沖擊一線位置的內(nèi)容平臺(tái),甚至對(duì)二線位置的內(nèi)容平臺(tái)來(lái)講,是一個(gè)個(gè)錦上添花的一個(gè)事情,因?yàn)橐郧斑€會(huì)考慮,內(nèi)容生產(chǎn)端端供給不足,現(xiàn)在 AI 內(nèi)容能夠讓生產(chǎn)從數(shù)量和質(zhì)量上豐富起來(lái)。
對(duì)于像抖音、快手這樣流量較高的平臺(tái),Sora 帶來(lái)的 AI 內(nèi)容充斥進(jìn)去之后,對(duì)平臺(tái)首先的考驗(yàn)就是能否把流量精準(zhǔn)分配到最好的內(nèi)容上,這對(duì)技術(shù)和算力都是一個(gè)挑戰(zhàn)。
如何平衡真實(shí)內(nèi)容和 AI 內(nèi)容的關(guān)系是需要面臨的問(wèn)題。平衡不好的話就會(huì)面臨原本優(yōu)質(zhì)創(chuàng)作者的流失問(wèn)題,因?yàn)樗麄儧](méi)有得到足夠播放量的正反饋就會(huì)選擇「出走」,或者創(chuàng)作者也會(huì)降低他們內(nèi)容生產(chǎn)的質(zhì)量,比如,原本一條視頻有 100 萬(wàn)播放量,創(chuàng)作者會(huì)按照 100 萬(wàn)播放量的要求做好內(nèi)容,但 AI 內(nèi)容分走蛋糕后,播放量只有1萬(wàn)了。創(chuàng)作者就會(huì)抱著「隨便做做」的心態(tài)應(yīng)付內(nèi)容,降低標(biāo)準(zhǔn),不斷形成惡性循環(huán)。
根據(jù)抖音快手的用戶(hù)協(xié)議,目前都會(huì)有一條就是禁止使用 AIGC 相關(guān)的工具去批量生產(chǎn)視頻內(nèi)容,或者也會(huì)要求對(duì)AI內(nèi)容進(jìn)行顯著標(biāo)記以示提醒。平臺(tái)也會(huì)防止 Sora 這類(lèi)工具生產(chǎn)的 AI 內(nèi)容去破壞原有的內(nèi)容邏輯。
除此之外,Sora 對(duì)以 PGC 為主的長(zhǎng)視頻生產(chǎn)和以 UGC 為主的短視頻生產(chǎn)的沖擊也是不一樣的。
雖然 Sora 還沒(méi)有完全出來(lái),行業(yè)內(nèi)都在預(yù)測(cè)其價(jià)格應(yīng)該很貴。對(duì)于 UGC 而言,制作 1 分鐘以?xún)?nèi)的短視頻價(jià)格都是很高的。甚至馬英武調(diào)侃道,根據(jù)對(duì)創(chuàng)作者的了解,國(guó)內(nèi)內(nèi)容創(chuàng)作者的付費(fèi)意識(shí)較低,除非 Sora 特別便宜到用一次一塊錢(qián),否則就很難以被廣泛接受,因?yàn)閯?chuàng)作者制作一條視頻有時(shí)甚至是零收入。
對(duì)于 PGC 的長(zhǎng)視頻而言,如何能保證主體的一致性、穩(wěn)定性、持續(xù)性,都尚未可知。而影視行業(yè)又有很強(qiáng)的頭部效應(yīng),這也是長(zhǎng)視頻的邏輯,只有長(zhǎng)視頻的效果做到最頭部的位置,才能在院線里拿到最好的排片。如果做了一個(gè)內(nèi)容不是很抗打的二三線的長(zhǎng)視頻,那么雖然也能進(jìn)院線,但是營(yíng)收也不會(huì)太好。
所以長(zhǎng)視頻是要向著沖擊最頂部的方向去,做二三線的視頻意義不大,而AI視頻是否能做到一線這對(duì) Sora 來(lái)說(shuō)是很大的考驗(yàn)。
Sora 更多的還是對(duì)視頻生產(chǎn)鏈路產(chǎn)生變革。Frank 向 AI 科技評(píng)論透露,當(dāng)下文生視頻工具的角色更像是在原本的工作流程中,能夠用 AI 的部分都用 AI 來(lái)做。但它也只是一個(gè)生產(chǎn)工具,需要有人來(lái)去創(chuàng)業(yè)的。策劃、編導(dǎo)、腳本語(yǔ)言、拍攝這樣一個(gè)工作流中,Sora 只會(huì)對(duì)后兩者產(chǎn)生一定的替代作用,但不會(huì)替代前兩者。
Sora 也可以運(yùn)用在時(shí)下火爆的短劇制作中。Sora 具備生成一分鐘視頻的能力,已經(jīng)足夠做一集內(nèi)容了,這樣就可以純?cè)瓌?chuàng),可以實(shí)現(xiàn)純足不出戶(hù)拍短劇,成本又極大降低。
但即便是 Sora 能出來(lái),并且效果極好,也不是誰(shuí)都能拍短劇。Sora 更多的只是工具,降本增效,無(wú)法取代能力和創(chuàng)造力。就像咪蒙無(wú)論有沒(méi)有 Sora,他都會(huì)火。也如同現(xiàn)在的 ChatGPT 已經(jīng)很完善,但鮮少有人通過(guò)用 ChatGPT 寫(xiě)出 10 萬(wàn)加的超級(jí)爆款。
過(guò)去會(huì)有一些編劇或其他創(chuàng)造能力很強(qiáng)的人,他們的內(nèi)容足夠好,只不過(guò)受制于生產(chǎn)力,他們沒(méi)辦法那么高產(chǎn),這樣Sora可以極大程度緩解他們的痛點(diǎn)。但是對(duì)于普通人而言,拍出流量和關(guān)注度高的短視頻,門(mén)檻是極高的。
綜上,Sora 出現(xiàn)之后,創(chuàng)意點(diǎn)、創(chuàng)造力、創(chuàng)新性的重要性不會(huì)變,對(duì)內(nèi)容的思考和理解也是不會(huì)變的。Sora 其實(shí)無(wú)法去撼動(dòng)那些本來(lái)就是靠?jī)?yōu)質(zhì)內(nèi)容為生的部分。
在短期的 1-3 年內(nèi),Sora 帶來(lái)的不變會(huì)大于改變。就像在影視娛樂(lè)、短視頻的行業(yè)中,原本的工作流和行業(yè)知識(shí)依然非常重要。
創(chuàng)業(yè)者不無(wú)機(jī)會(huì)
「Pika、Runway 這樣的文生視頻初創(chuàng)公司該怎么辦?」這是 Sora 出來(lái)后,行業(yè)內(nèi)人士不約而同會(huì)發(fā)出的疑問(wèn)。
的確,基于一個(gè)已有的、很明顯是過(guò)時(shí)的技術(shù)框架直接擴(kuò)張用戶(hù)數(shù)量的公司,現(xiàn)在確實(shí)處于危險(xiǎn)的位置。
因?yàn)樵谶@個(gè)過(guò)程中,不僅圍繞著上一代、不成熟的技術(shù)框架做了很多工程適配、產(chǎn)品驗(yàn)證、畫(huà)蛇添足的設(shè)計(jì),同時(shí)產(chǎn)出的結(jié)果要遷移到新的過(guò)程中,還會(huì)一定程度上犧牲老用戶(hù)的利益,也會(huì)讓整體的遷移過(guò)程像在飛行的飛機(jī)上換引擎一樣痛苦。
但于 Pika 而言,它和 OpenAI 一樣都是微軟系公司,兩者其實(shí)是一個(gè)陣營(yíng)。有行業(yè)內(nèi)人士判斷,Pika 在一定程度上更像是一個(gè)排頭兵或者是試驗(yàn)田,當(dāng)然 Pika 之中有很好的技術(shù),用他們先來(lái)呈現(xiàn),以獲得反饋。而之后 OpenAI 的 Sora 才是更重磅的,是要經(jīng)受更多考驗(yàn)的產(chǎn)品。
至于 OpenAI 和其他生存下來(lái)的 AIGC 公司的關(guān)系,現(xiàn)在一超多強(qiáng)的局勢(shì)初步呈現(xiàn),還很難看到終局。Frank 表示,可以確定的一點(diǎn)是,使用者靠近 OpenAI,創(chuàng)業(yè)者遠(yuǎn)離 OpenAI 。
和 OpenAI 的業(yè)務(wù)主體技術(shù)保持一定安全距離,和他能夠輻射到的市場(chǎng)需求保持一定空間,這個(gè)空間需得是它作為一個(gè)超級(jí)應(yīng)用的大公司還暫時(shí)觸及不了的,而在這些領(lǐng)域是可以形成業(yè)務(wù)縱深,知道自己的生存縫隙,比如 AI 教育、AI 電商。
出現(xiàn)這些機(jī)會(huì)的背后,定然是市場(chǎng)和技術(shù)的結(jié)合,也是國(guó)外公司必然觸達(dá)不了的角落,國(guó)內(nèi)的互聯(lián)網(wǎng)產(chǎn)品比國(guó)外做得更精細(xì)、更強(qiáng)、更適配、更好用,更能滿足我們中國(guó)人自己的需求。這樣相比之下,國(guó)外產(chǎn)品的競(jìng)爭(zhēng)力會(huì)降低。
如果是把 OpenAI 或者其它大模型作為一個(gè)超級(jí)底座的話,在此基礎(chǔ)上更進(jìn)一步的細(xì)化對(duì)具體的技術(shù)和業(yè)務(wù)理解會(huì)更重要。去做某一類(lèi)人群、或者說(shuō)特定垂類(lèi)上的內(nèi)容需求,都是有價(jià)值的。
胡修涵舉例說(shuō),面向電商的營(yíng)銷(xiāo)場(chǎng)景的內(nèi)容生成,都是值得單獨(dú)做的事情,但是在大塊的垂類(lèi)場(chǎng)景的之上,它也不會(huì)是一個(gè)切得過(guò)于細(xì)碎的區(qū)塊。比如,不能為一個(gè)剪映模板能做出來(lái)的視頻,專(zhuān)門(mén)去訓(xùn)一個(gè)模型創(chuàng)業(yè),這就違背了通用人工智能的基本邏輯。
本質(zhì)上來(lái)講,現(xiàn)在 AIGC 產(chǎn)品的母模型都是大語(yǔ)言模型,也可以理解成,大模型在更大程度上是一個(gè)概率抽樣器,所以它會(huì)基于給定的條件,輸出一個(gè)平均的結(jié)果。一旦在一個(gè)確定的領(lǐng)域上深耕,需要模型輸出的往往是小概率、反共識(shí)、反常規(guī)的一些結(jié)果,這一部分就需要做單獨(dú)的適配才能更符合這部分用戶(hù)的習(xí)慣,這也是 AIGC 創(chuàng)業(yè)者的機(jī)會(huì)所在。
當(dāng)下,對(duì)于人才密度不夠的創(chuàng)業(yè)團(tuán)隊(duì)而言,重做技術(shù)的風(fēng)險(xiǎn)很大,馬英武認(rèn)為此時(shí)的機(jī)會(huì)反而在于做用戶(hù)運(yùn)營(yíng)。在 Sora 上搭建一套新的工具欄,「做皮不做瓤」,基于這樣的模式去做工具運(yùn)營(yíng),生產(chǎn)的內(nèi)容也可以留存到自己的平臺(tái),如果這時(shí)候能有一個(gè)消費(fèi)平臺(tái),就可以做出從生產(chǎn)到消費(fèi)的自閉環(huán)。
在這個(gè)過(guò)程中,技術(shù)雖然是屬于 Sora ,但用戶(hù)、內(nèi)容、渠道都屬于創(chuàng)業(yè)者,未來(lái)這種中小型平臺(tái)誕生的可能性非常大。
Sora 沖擊之下,無(wú)論是做技術(shù)還是做產(chǎn)品,都需要有一些原生的、開(kāi)拓性的思考、積累、預(yù)判、堅(jiān)持,如果單純地亦步亦趨則前路渺茫。
聯(lián)系客服