哈哈,昨天邊吃飯喝酒的時(shí)候就手機(jī)信息全讓這貨給炸屏了。連夜研究了下確實(shí)嚇出冷汗呀,它竟然可以生成長視頻而且那么逼真昨天夜晚的時(shí)候發(fā)現(xiàn)真估計(jì)是AGI涌現(xiàn)了。也幫大家整理了下內(nèi)容哈~。
什么是“Sora”?它的亮點(diǎn)?
在2月16日凌晨,OpenAI發(fā)布了全新的視頻生成模型——Sora。Sora將超越目前市場上的所有文字生成視頻模型。從此刻開始,我們所見到的視頻和動(dòng)圖將全部由這個(gè)AI生成,而非實(shí)際拍攝。Sora 三大亮點(diǎn)突出:1、60 秒長視頻,Sora 可以保持視頻主體與背景的高度流暢性與穩(wěn)定性。2、單視頻多角度鏡頭,Sora 在一個(gè)視頻內(nèi)實(shí)現(xiàn)多角度鏡頭,分鏡切換符合邏輯且十分流暢。3、理解真實(shí)世界的能力,Sora 對(duì)于光影反射、運(yùn)動(dòng)方式、鏡頭移動(dòng)等細(xì)節(jié)處理得十分優(yōu)秀,極大地提升了真實(shí)感。
行業(yè)大佬周鴻祎,Sora 意味著AGI實(shí)現(xiàn)將從10年縮短到1年,個(gè)人認(rèn)為1~3年會(huì)實(shí)現(xiàn)。下面是大佬關(guān)于從10年縮短到1年的分析文章。
OpenAI,Sora一出道就成了圖文視頻AGI涌現(xiàn),導(dǎo)致一眾pika\runway\SVD兄弟都膜拜了跪了。
相較于一眾小弟只能生成短暫、個(gè)位數(shù)秒長的視頻,Sora能夠?qū)崿F(xiàn)一分鐘時(shí)長的視頻生成,這種跨越無疑產(chǎn)生了顛覆性的效果。
哈哈,講了這么多大家一起來欣賞下“Sora“的能力吧。
1、Sora,AI想象中的龍年春節(jié),紅旗招展人山人海。
2、Sora,AI想象中人物的瞳孔、睫毛、皮膚紋理,都逼真到看不出一絲破綻,完全沒有AI味兒
3、Sora,AI想象中一位時(shí)髦女士漫步在東京街頭,周圍是溫暖閃爍的霓虹燈和動(dòng)感的城市標(biāo)志。
提示:一位時(shí)尚的女人走在東京的街道上,街道上到處都是溫暖的發(fā)光霓虹燈和動(dòng)畫城市標(biāo)志。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個(gè)黑色錢包。她戴著墨鏡,涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動(dòng)。
4、Sora,AI想象中豎屏超近景視角下,這只蜥蜴細(xì)節(jié)拉滿
5、Sora,AI想象中在一間擁有電影級(jí)燈光設(shè)置的充滿托斯卡納鄉(xiāng)村風(fēng)情的廚房里,一位擅長利用社交媒體的奶奶,正在教你制作美味的自制諾奇面。
6、Sora,AI想象中五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,狼的數(shù)量會(huì)變化,一些憑空出現(xiàn)或消失。
7、Sora,AI想象中博朋克背景下機(jī)器人的生活故事
8、Sora,AI想象中幾只巨大的毛茸茸的猛犸象正踏著白雪皚皚的草地走來,它們長長的毛茸茸的皮毛在風(fēng)中輕輕飄動(dòng),遠(yuǎn)處覆蓋著積雪的樹木和雄偉的雪山,午后的陽光下有縷縷云彩,太陽高掛在天空中?!本嚯x產(chǎn)生了溫暖的光芒,低攝像頭視角令人驚嘆地捕捉到了大型毛茸茸的哺乳動(dòng)物,具有美麗的攝影和景深。
9、Sora,AI想象中兩艘海盜船在咖啡杯里互相戰(zhàn)斗的逼真特寫視頻
哇哦Sora真的很秀呀,未來可能電影都是AGI通用人工智能生產(chǎn)的。
下面是關(guān)于OPENAI,Sora體驗(yàn)地址與技術(shù)說明文檔
sora官方展示網(wǎng)址:https://openai.com/sora
sora官方技術(shù)說明文檔:
https://openai.com/research/video-generation-models-as-world-simulators
一些參考推薦:
作為世界模擬器的視頻生成模型:Video generation models as world simulators (openai.com)
Generative models: (openai.com)
https://www.zhihu.com/question/644473449/answer/3397947587
《Scalable diffusion models with transformers》,
https://arxiv.org/abs/2212.09748
https://mp.weixin.qq.com/s/gSvxvOVqYtGcKw0ueDGbFA
https://mp.weixin.qq.com/s/2iGVsdz6YHHupsKIPxRjdQ
Sora技術(shù)報(bào)告主要內(nèi)容
1、Sora將視覺數(shù)據(jù)轉(zhuǎn)化為補(bǔ)丁
借鑒于大型語言模型的成功經(jīng)驗(yàn),這些模型通過海量的互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練,具備出色的通用能力。LLM范式的成功得益于其巧妙運(yùn)用標(biāo)記,這些標(biāo)記巧妙地統(tǒng)一了文本、代碼、數(shù)學(xué)以及各種自然語言模式。在研究中OpenAI思考了視覺數(shù)據(jù)生成模型如何能夠繼承并運(yùn)用這些優(yōu)勢(shì)。相較于LLM擁有文本標(biāo)記,Sora則通過引入視覺補(bǔ)丁實(shí)現(xiàn)其目標(biāo)。過去的研究已經(jīng)證明,補(bǔ)丁在表示視覺數(shù)據(jù)模型時(shí)是一種有效的方式。發(fā)現(xiàn)表明,補(bǔ)丁是一種高度可擴(kuò)展和有效的表示方式,適用于在不同類型的視頻和圖像上進(jìn)行生成模型的訓(xùn)練。在更高層面上,首先將視頻壓縮至較低維的潛在空間,然后通過將表示分解為時(shí)空補(bǔ)丁的方式,成功地將視頻轉(zhuǎn)換為補(bǔ)丁形式。這一方法為訓(xùn)練生成模型提供了更靈活、更有效的手段。
2、Sora頻壓縮網(wǎng)絡(luò)
通過訓(xùn)練網(wǎng)絡(luò)成功實(shí)現(xiàn)了對(duì)視覺數(shù)據(jù)維度的降低。這個(gè)網(wǎng)絡(luò)以原始視頻為輸入,輸出在時(shí)間和空間上經(jīng)過壓縮的潛在表示。Sora在這一壓縮的潛在空間中接受訓(xùn)練,進(jìn)而生成出新的視頻。為了完善這一過程進(jìn)行了解碼器模型的訓(xùn)練,它能夠?qū)⑸傻臐撛诒硎居成浠叵袼乜臻g,為最終的視覺輸出提供了高質(zhì)量的還原。
這個(gè)創(chuàng)新性的方法不僅能夠在降低數(shù)據(jù)維度的同時(shí)保持信息的關(guān)鍵性,還為視覺數(shù)據(jù)處理領(lǐng)域帶來了更為高效和靈活的解決方案。
3、Sora語言理解
為了訓(xùn)練文本到視頻生成系統(tǒng)采用具備相應(yīng)文本字幕的大量視頻。引入了DALL·E 3中的重新字幕技術(shù),首先培訓(xùn)了一個(gè)高度描述性的字幕生成器模型,并將其用于為訓(xùn)練集中的所有視頻生成文本字幕。這一過程的關(guān)鍵是通過對(duì)高度描述性視頻字幕的訓(xùn)練,提高文本的保真度,從而提升整體視頻質(zhì)量。與DALL·E 3相似,巧妙地利用GPT將短小的用戶提示轉(zhuǎn)換為更為詳細(xì)的字幕,然后將其發(fā)送到視頻模型。這一策略使得Sora能夠生成高質(zhì)量視頻,準(zhǔn)確地符合用戶的提示,為用戶提供了更加個(gè)性化和令人滿意的視覺體驗(yàn)。
其他擴(kuò)展導(dǎo)讀:
Sora雖然不是第一個(gè)文生視頻大模型,但之前的模型生成的視頻都很短。記得去年嗎?信雅達(dá)的大老板郭華強(qiáng)的女兒在國外搞了個(gè)AI公司叫Pika Labs,他們發(fā)布的Pika 1.0文生視頻大模型真的很火。你只需輸入一張圖片和想要的動(dòng)態(tài)指令,或者選一段視頻的某個(gè)部分,然后輸入指令,就能生成視頻。但很多人覺得,雖然視頻質(zhì)量挺好的,但只能生成3秒以內(nèi)的,這點(diǎn)真的讓人有點(diǎn)頭疼。所以,Sora在這方面做得更好了。
Sora可能帶來的影響?
如果Sora能夠真正意義上實(shí)現(xiàn)文生視頻,可能會(huì)帶來哪些影響呢?
1、沒有真實(shí)演員參與的影視作品將成為可能,這無疑給傳統(tǒng)演員帶來了新的挑戰(zhàn)。同時(shí),這也將催生真正意義上的“虛擬偶像”的興起。與之前的二次元人物相比,這些虛擬偶像將更加逼真、生動(dòng),并有可能在娛樂界占據(jù)一席之地。
2、這對(duì)于編劇行業(yè)來說是一個(gè)積極的信號(hào),劇本和文本創(chuàng)作的能力將成為這個(gè)行業(yè)的核心競爭力。
3、Sora可能才是真正的文生視頻,此前的文生視頻大多只有2秒,僅僅是對(duì)象的小幅度移動(dòng)。
4、OpenAI繼續(xù)拉大領(lǐng)先程度,對(duì)眾多還在進(jìn)行大模型測試打分pk的廠商,構(gòu)成壓力。
5、影視行業(yè),特別是特效制作領(lǐng)域,將直接受益于這一技術(shù)。利用AI制作特效和高風(fēng)險(xiǎn)鏡頭,不僅能顯著降低拍攝成本,還能避免許多潛在的危險(xiǎn)。
6、攝影師行業(yè)也會(huì)受到影響,用文本來生成一些視頻,可以省去很多拍攝工作。
7、隨著短視頻的流行,視頻剪輯師這個(gè)職業(yè)也變得越來越熱門。然而,如果AI技術(shù)能夠取代視頻剪輯師的工作,那么這個(gè)職業(yè)可能會(huì)面臨失業(yè)的風(fēng)險(xiǎn)。
8、對(duì)于很多短視頻創(chuàng)作者來說,用AI來替代繁瑣的剪輯工作,可以大幅提高工作效率。
9、許多歌手在拍攝MV時(shí)需要投入大量成本。但如果AI技術(shù)能夠用來生成MV所需的畫面,這將為歌手節(jié)省大量的制作成本。
10、此外,如果真正實(shí)現(xiàn)了文生視頻技術(shù),我們也需要警惕不法分子可能會(huì)利用這一技術(shù)實(shí)施新型的違法犯罪行為。
不過,從Sora官網(wǎng)目前展示的視頻畫面效果來看,效果還沒那么逼近真實(shí),短期內(nèi)不會(huì)產(chǎn)生讓行業(yè)失業(yè),但會(huì)有輔助作用,做個(gè)動(dòng)畫片應(yīng)該問題不大。在Sora官網(wǎng),OpenAI表示,Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),OpenAI相信這一能力將是實(shí)現(xiàn)AGI的重要里程碑。
終上所述:
少峰個(gè)人觀點(diǎn),OpenAI的SORA無疑給我們帶來了很多驚喜,但它并非完美無缺。它既有其獨(dú)特的優(yōu)勢(shì),也存在一些不足;既有廣闊的發(fā)展前景,也面臨著諸多挑戰(zhàn);既有創(chuàng)新之處,也有其局限性。因此,我們應(yīng)該以客觀、全面的眼光來審視和評(píng)價(jià)SORA,既要欣賞其所帶來的優(yōu)勢(shì),也要正視其存在的問題。期待在OpenAI的不斷努力下,最終上線的SORA能夠克服這些難題,為我們帶來更加出色的表現(xiàn)。其實(shí)更多的應(yīng)該是如何能實(shí)現(xiàn)各種場景應(yīng)用,所以讓子彈在飛一會(huì)。
Sora的出現(xiàn),給企業(yè)數(shù)智化的啟示
人工智能技術(shù)的迅猛發(fā)展已經(jīng)遠(yuǎn)超預(yù)期,這既帶來了無限的可能性,也對(duì)我們提出了新的挑戰(zhàn)。在尚未擁有強(qiáng)大的AI能力之前,我們需要具備前瞻性的思考力,積極探索如何借助AI工具來增強(qiáng)我們的創(chuàng)造力,而不是陷入恐慌。新技術(shù)的涌現(xiàn)不僅正在重塑我們的認(rèn)知和生活方式,更在深刻地改變我們的思維方式。然而,在享受AI技術(shù)帶來的思想盛宴的同時(shí),企業(yè)在數(shù)字化建設(shè)和AI融合利用方面需要保持更多的理智。這是因?yàn)?,只有在理性和審慎的指?dǎo)下,我們才能確保AI技術(shù)的健康發(fā)展,避免盲目跟風(fēng)或過度依賴,從而實(shí)現(xiàn)真正的創(chuàng)新和可持續(xù)發(fā)展。原因如下:
1、AI技術(shù)目前尚不成熟,需要一個(gè)發(fā)展完善的過程,而對(duì)于場景化的技術(shù)落地,則需要更長的路要走;
2、AI技術(shù)落地企業(yè)場景需要的不僅是時(shí)間更需要大量的資金投入;一般的企業(yè)難以承受,且這種投入是持續(xù)性的;
3、企業(yè)員工的AI思維能力與AI工具的融合更需要一個(gè)長時(shí)間的磨合過程;
因此少峰認(rèn)為,當(dāng)前企業(yè)領(lǐng)導(dǎo)者在對(duì)待AI技術(shù)時(shí),需要保持理智的思考,避免對(duì)其抱有過高的期望。同時(shí),也要認(rèn)識(shí)到目前大多數(shù)軟件公司在AI技術(shù)支持方面仍有很大的提升空間。因此,企業(yè)領(lǐng)導(dǎo)者不應(yīng)理所當(dāng)然地認(rèn)為僅僅通過應(yīng)用AI技術(shù)就能立即優(yōu)化大量員工或大幅降低成本支出。實(shí)際上,實(shí)現(xiàn)這些目標(biāo)需要綜合考慮多種因素,包括技術(shù)成熟度、員工培訓(xùn)、業(yè)務(wù)流程調(diào)整等。只有在全面評(píng)估和合理規(guī)劃的基礎(chǔ)上,才能充分發(fā)揮AI技術(shù)的潛力,為企業(yè)帶來真正的價(jià)值。
感謝大家閱讀到這里面,也贈(zèng)送給大家一份見面禮。
我自己整理AGI知識(shí)庫。
AGI知識(shí)庫地址如何獲???
滑到上面看到”少峰說“,關(guān)注我公眾號(hào),發(fā)送”AGI“關(guān)鍵詞領(lǐng)取。
(完) 少峰 跟你們一起長,未來咱們一起探討如何通過AI成為超級(jí)個(gè)體“你帶我?guī)恪备沐X,少峰“你帶我?guī)恪备懔髁?,祝大家越來越有錢。
聯(lián)系客服