作為 AI 大廠,Meta 和谷歌實(shí)際上沒有缺席任何一個(gè)重要的 AI 技術(shù),在 AI 視頻生成上更是獨(dú)領(lǐng)風(fēng)騷。Meta 在 9 月率先推出了 Make-A-Video,言簡(jiǎn)意賅地表達(dá)了它的作用:做視頻。更具體地說,Make-A-Video 可以通過文本、圖片或者視頻來生成一個(gè)全新的視頻內(nèi)容,尤其是文本直接生成視頻,直接讓視頻創(chuàng)作的門檻大大降低,比如輸入「機(jī)器人在時(shí)代廣場(chǎng)跳舞」:圖/Meta僅僅一周后,Google 也發(fā)布了自己的 AI 視頻擴(kuò)散模型 Imagen Video。與 Make-A-Video 相比,Imagen Video 最直接的感受就是清晰度更高——畫面分辨率可以達(dá)到 1280×768,幀率也能到 24 fps 了。不過,兩者實(shí)際上都還存在畫面不正常抖動(dòng)、主體畸形、動(dòng)作不夠流暢等問題,而且與之前推出文本生成圖像程序一樣,谷歌和 Meta 都沒有選擇對(duì)外開放,這也是為什么相比 AI 畫畫的流行,AI 生成視頻領(lǐng)域更多還是處在看熱鬧的階段——就像 2021 年的 AI 生成圖像。字節(jié)也看好 AI 視頻模型的未來,在抖音內(nèi)就支持了「圖文成片」功能,輸入一段文字,軟件智能匹配圖片素材、添加字幕、旁白和音樂,自動(dòng)生成視頻。從一些創(chuàng)作者的反饋來看,目前「圖文成片」的實(shí)現(xiàn)還很初級(jí),智能匹配和生成視頻兩個(gè)環(huán)節(jié)都很難真正在視頻生產(chǎn)環(huán)節(jié)中使用。當(dāng)下 AI 生成視頻在技術(shù)上顯然還不夠成熟,但最近幾年 AI 進(jìn)化速度在肉眼可見地加快,很難想象今年 AI 視頻模型又會(huì)發(fā)生什么樣的質(zhì)變。不管 AI 視頻模型是否能在今年再度質(zhì)變,就如百度移動(dòng)生態(tài)負(fù)責(zé)人何俊杰在 9 月的 2022 百度萬象大會(huì)上所說,「未來十年,AIGC 將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式,可以實(shí)現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,創(chuàng)造出有獨(dú)特價(jià)值和獨(dú)立視角的內(nèi)容?!?/strong>
可以預(yù)期,AIGC 將是 UGC 用戶生成內(nèi)容出現(xiàn)之后,又一個(gè)內(nèi)容生產(chǎn)的大變革,最直接的應(yīng)用就是大大降低視頻制作的成本和門檻,這也意味著為視頻內(nèi)容在供給側(cè)的大爆發(fā)提供了技術(shù)基礎(chǔ)。那場(chǎng)萬象大會(huì)上,百度就推出了基于文心 AI 大模型的「創(chuàng)作者 AI 助理團(tuán)」,由 AI 文案、AI 畫師和 AI 視頻制作人組成。理想狀態(tài)下,借助「創(chuàng)作者 AI 助理團(tuán)」,一個(gè)人就可以是一支視頻團(tuán)隊(duì)。但顯然,現(xiàn)實(shí)是 AI 視頻生成還需要一些時(shí)間。
過去十年,可以說互聯(lián)網(wǎng)和智能手機(jī)徹底改變了內(nèi)容的分發(fā)和消費(fèi)環(huán)節(jié),但在內(nèi)容生產(chǎn)領(lǐng)域本質(zhì)上沒有過多的變化。而在過去一年,AIGC 已經(jīng)帶來了太多的變化,Stable Diffusion、Imagen Video 和 ChatGPT 分別對(duì)應(yīng)了最主要的內(nèi)容形式——圖像、視頻和文本。當(dāng)然,AIGC 還在面對(duì)很多挑戰(zhàn),包括版權(quán)、生成質(zhì)量不穩(wěn)定、創(chuàng)作主體爭(zhēng)論等,甚至 AI 生成視頻還沒有經(jīng)過大眾使用驗(yàn)證。但現(xiàn)如今 AIGC 開始「飛入尋常百姓家」,已經(jīng)具備了成為一項(xiàng)大眾化技術(shù)的基礎(chǔ),未來很可能極大地提高內(nèi)容的生產(chǎn)效率和豐富度。從《太空歌劇院》獲得藝術(shù)大獎(jiǎng)到今天,AI 的爭(zhēng)論依然沒有停止,但就如 Jason Allen 為自己的事件所做的總結(jié):AI 作畫程序已經(jīng)誕生,人們能做的只有承認(rèn)并接受這件事。題圖來自 StabilityAI