九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
國(guó)產(chǎn)AI訓(xùn)練,為什么要用外國(guó)視頻?
userphoto

2024.05.14 貴州

關(guān)注
酷玩實(shí)驗(yàn)室原創(chuàng)作品

生成式AI的這股浪潮翻涌到現(xiàn)在,已經(jīng)一年多了。

如果要論在這股浪潮中,哪一類(lèi)模型是AI領(lǐng)域“王冠上的寶石”,那一定是文生視頻模型莫屬。

從技術(shù)層面來(lái)說(shuō),Sora、Vidu這列視頻大模型,最核心的價(jià)值,在于它們實(shí)現(xiàn)了跨媒介的信息合成與創(chuàng)造,從而形成了文本、圖像、與視頻等不同模態(tài)的“大一統(tǒng)”。

而這樣的“大一統(tǒng)”,或許正是人類(lèi)通向AGI的關(guān)鍵。


在這個(gè)“大一統(tǒng)”的框架下,數(shù)據(jù)不再被單一模態(tài)所限,而是作為多維度信息的綜合體被理解和運(yùn)用。

正如圖靈獎(jiǎng)得主,AI三巨頭之一的Yann LeCun所提出的“世界模型”理論所述,現(xiàn)如今的 LLM (大模型)都只是在文本上訓(xùn)練的,因此只能非常粗淺地理解世界。

即使 LLM 憑借大量參數(shù)和海量訓(xùn)練數(shù)據(jù),能展現(xiàn)出過(guò)人的文本理解能力,但它們本質(zhì)上捕獲的依然只是文本的統(tǒng)計(jì)規(guī)律,并不真正理解文本在現(xiàn)實(shí)世界中所代表的含義。

AI三巨頭之一 Yann LeCun

而如果模型能使用更多感官信號(hào)(比如視覺(jué))學(xué)習(xí)世界的運(yùn)作模式,那么就能更加深刻地理解現(xiàn)實(shí)。從而感知那些無(wú)法僅憑文字傳達(dá)的規(guī)律、現(xiàn)象。

從這個(gè)角度來(lái)說(shuō),誰(shuí)能率先通過(guò)多模態(tài)的世界模型,讓AI掌握現(xiàn)實(shí)物理的規(guī)律,誰(shuí)或許就能率先突破文本和語(yǔ)義的限制,在通往AGI的路上先登上一個(gè)大臺(tái)階。

這也是為什么,OpenAI當(dāng)前如此傾注于Sora的原因。

雖然前段時(shí)間,Vidu的出現(xiàn)給國(guó)產(chǎn)視頻技術(shù)長(zhǎng)臉了,在Sora這樣的行業(yè)霸主面前挺直了腰板,但大家伙兒在歡欣鼓舞的同時(shí),細(xì)心一看Vidu的演示視頻,發(fā)現(xiàn)個(gè)挺有意思的事兒:里面老外的臉蛋特別多。


這一下子,可讓大家伙兒琢磨開(kāi)了,感覺(jué)像是無(wú)意中扯出了咱們?cè)谑占曨l資料這塊兒的一個(gè)小辮子——高質(zhì)量數(shù)據(jù)不足。


數(shù)據(jù)之困

如果說(shuō),現(xiàn)階段真有制約視頻生成模型發(fā)展的硬門(mén)檻,那么這樣的門(mén)檻,無(wú)非就是算力、算法與數(shù)據(jù)。

而其中的前兩者,實(shí)際上只要有錢(qián),有人才,實(shí)際上都能搞得定,唯獨(dú)數(shù)據(jù),一旦落下了,后面想追平,可就得費(fèi)老大勁兒了。就像身高一樣,拉開(kāi)了就很難追趕。

講真,雖然從絕對(duì)總量來(lái)看,中文互聯(lián)網(wǎng)上視頻內(nèi)容也不少了,但其中真正可用于A(yíng)I訓(xùn)練的高質(zhì)量數(shù)據(jù),卻并不如外網(wǎng)豐富。


例如,在視頻目標(biāo)檢測(cè)方面,YouTube視頻數(shù)據(jù)集VIS包含2,904個(gè)視頻序列,共超過(guò)25萬(wàn)個(gè)標(biāo)注目標(biāo)實(shí)例。國(guó)內(nèi)視頻目標(biāo)檢測(cè)數(shù)據(jù)集,如華為的OTB-88,僅包含88個(gè)視頻序列。

而在行為識(shí)別數(shù)據(jù)集方面,由國(guó)際上同樣知名的HACS數(shù)據(jù)集,包含了140萬(wàn)個(gè)視頻片段,涵蓋200個(gè)人類(lèi)日常行為類(lèi)別。相較之下,國(guó)內(nèi)阿里云的天池行為識(shí)別數(shù)據(jù)集,雖然也是涵蓋200個(gè)行為類(lèi)別,但僅僅包含了20萬(wàn)個(gè)視頻片段。


造成這一差距的原因,從視頻生態(tài)上來(lái)說(shuō),主要是因?yàn)閲?guó)內(nèi)的很多主流視頻網(wǎng)站,例如愛(ài)優(yōu)騰,發(fā)布的大都是一些影視劇、綜藝、娛樂(lè)等內(nèi)容。

而流量最大的抖音、快手這些短視頻平臺(tái),也都是滿(mǎn)屏的搞笑段子、生活小竅門(mén),本來(lái)時(shí)長(zhǎng)就很短了,其中還不乏很多剪輯、搬運(yùn)、抄襲的作品。

這么一來(lái),AI想找點(diǎn)“正經(jīng)飯”吃,還真不容易。


對(duì)于視頻AI訓(xùn)練來(lái)說(shuō),這樣的視頻,要么過(guò)于集中于特定類(lèi)型,缺乏日常生活等多樣化的場(chǎng)景,要么時(shí)長(zhǎng)太短,缺乏深度和連貫的敘事,這不利于A(yíng)I學(xué)習(xí)到長(zhǎng)序列的連貫性、故事邏輯和因果關(guān)系。

與之相比,專(zhuān)業(yè)團(tuán)隊(duì)制作的電影、紀(jì)錄片等內(nèi)容,往往才是視頻AI所需的高質(zhì)量數(shù)據(jù)。


因?yàn)檫@些題材不僅種類(lèi)豐富,時(shí)長(zhǎng)夠長(zhǎng),并且十分重細(xì)節(jié)呈現(xiàn),更有利于A(yíng)I模型捕捉到光線(xiàn)變化、物體材質(zhì)方面的區(qū)別,從而提升其生成的精準(zhǔn)度。

視頻數(shù)據(jù)這塊兒地兒,咱們不光是缺高質(zhì)量的內(nèi)容,還有個(gè)頭疼的事兒——數(shù)據(jù)標(biāo)注,這可是塊難啃的骨頭。就算視頻拍得質(zhì)量再高,但你直接甩給AI,它也不能分清其中的物品。

所以收集好視頻數(shù)據(jù)后,得有人耐著性子,一幀一幀地告訴AI:“瞧見(jiàn)沒(méi),這條線(xiàn)動(dòng)的是車(chē)流,那個(gè)兩腳走路的是行人?!?/span>


要搞定數(shù)據(jù)標(biāo)注這個(gè)既費(fèi)勁又海量的活兒,沒(méi)點(diǎn)厲害的家伙事兒可不成。例如,為提升標(biāo)注效率,國(guó)外就涌現(xiàn)出了一批交互式視頻標(biāo)注工具,如CVAT, iMerit等。這些工具集成了自動(dòng)跟蹤、插值等算法,能夠大幅減少人工標(biāo)注的工作量。

反觀(guān)咱們國(guó)內(nèi),由于自動(dòng)化標(biāo)注工具不那么普及,多半還是靠人海戰(zhàn)術(shù),大批的標(biāo)注小分隊(duì)加班加點(diǎn)地手動(dòng)肝。

這么干吧,雖說(shuō)標(biāo)注的量上去了,可問(wèn)題也跟著來(lái)了——這批臨時(shí)拉起來(lái)的大軍,沒(méi)個(gè)統(tǒng)一的、客觀(guān)的標(biāo)準(zhǔn),培訓(xùn)啥的也不到位,全憑個(gè)人感覺(jué)在那兒判斷對(duì)錯(cuò)好壞,這樣一來(lái),數(shù)據(jù)質(zhì)量參差不齊就成了常態(tài),有的地方標(biāo)得好一些,有的地方可能就馬馬虎虎。


更讓人頭大的是,這種活兒,不僅枯燥乏味,累死累活,還掙不了幾個(gè)錢(qián),你說(shuō)誰(shuí)樂(lè)意干長(zhǎng)久?

根據(jù)多家視頻數(shù)據(jù)標(biāo)注公司的反饋,大多數(shù)標(biāo)注員的月薪在3000-5000元之間,國(guó)內(nèi)視頻標(biāo)注行業(yè)的年流失率普遍在30%-50%之間,個(gè)別公司甚至高達(dá)80%。

這行當(dāng)人員流動(dòng)跟走馬燈似的,公司得不停地招新人、培訓(xùn)新人,剛教會(huì)一批,轉(zhuǎn)頭又走了一波。這直接把數(shù)據(jù)標(biāo)注的質(zhì)量穩(wěn)定性給攪和了。


講真,在數(shù)據(jù)總量、多樣性、標(biāo)注環(huán)節(jié)均不如外網(wǎng)的情況下,國(guó)內(nèi)的視頻AI要想崛起,該怎么跨過(guò)數(shù)據(jù)這道難關(guān)呢?


合成數(shù)據(jù)

如果高質(zhì)量數(shù)據(jù)實(shí)在難找,那走合成數(shù)據(jù)這條路,用人工素材來(lái)“投喂”AI,是否可行呢?講真,在Sora問(wèn)世前,就已經(jīng)有人這么做了,例如英偉達(dá)在2021年發(fā)布的Omniverse Replicator就是這樣一個(gè)例子。


說(shuō)白了,Omniverse Replicator就是個(gè)合成數(shù)據(jù)的平臺(tái),專(zhuān)攻那種超逼真的3D場(chǎng)景。這玩意兒牛就牛在,它造出來(lái)的視頻數(shù)據(jù)啊,每個(gè)細(xì)節(jié)都嚴(yán)絲合縫地遵循物理定律,就像是從真實(shí)世界里直接摘出來(lái)的一樣。

這玩意兒對(duì)誰(shuí)最管用?哦,那可多了去了,自動(dòng)駕駛,機(jī)器人訓(xùn)練什么的,或者任何想要AI準(zhǔn)確理解物理動(dòng)態(tài)的項(xiàng)目。


在進(jìn)行數(shù)據(jù)合成時(shí),Omniverse Replicator首先會(huì)將各種3D模型、貼圖和真實(shí)的材質(zhì)拖進(jìn)自己的平臺(tái)中,之后就像搭積木那樣,用這些素材構(gòu)建出各種場(chǎng)景,例如城市街道,工作中的車(chē)間,或者是繁忙的馬路等等。


接下來(lái),為了讓制造出來(lái)的數(shù)據(jù)不那么“死板”、“單調(diào)”,Replicator有個(gè)厲害的功能,就是能讓人設(shè)定很多變化的因素。比如物體放哪兒、朝哪邊、長(zhǎng)啥樣、顏色咋變、表面摸起來(lái)啥感覺(jué),甚至是燈光怎么打,都能讓它自己隨機(jī)變來(lái)變?nèi)ァ?/span>

這樣做有個(gè)大好處,就是能讓最后得到的數(shù)據(jù)五花八門(mén),能讓AI見(jiàn)識(shí)各種情況。這對(duì)AI數(shù)據(jù)合成來(lái)說(shuō),是至關(guān)重要的一步。


再之后,為了精確模擬現(xiàn)實(shí)中的物理交互,Omniverse Replicator中的NVIDIA PhysX等物理引擎,會(huì)根據(jù)牛頓力學(xué)等物理法則,在物體發(fā)生碰撞或接觸的時(shí)候啊,計(jì)算它們的運(yùn)動(dòng)狀態(tài)改變,比如速度、加速度、旋轉(zhuǎn)和摩擦力等。

同時(shí)添加重力、彈性、摩擦力、流體阻力等約束條件,從而讓模擬更接近現(xiàn)實(shí)。


雖然Omniverse Replicator可以生成高質(zhì)量的視覺(jué)和動(dòng)態(tài)3D場(chǎng)景,但它最擅長(zhǎng)的是處理那些遵循物理定律的東西,比如怎么讓虛擬的球按正確的方式彈跳。而對(duì)于那些抽象的,具有連貫邏輯和敘事性的內(nèi)容,就超出了它的能力范疇了。

比如,如果人們想在視頻里展現(xiàn)一個(gè)人開(kāi)心的樣子,就得讓AI先學(xué)會(huì)“笑”這個(gè)表情,這可不是物理模擬能搞定的東西……


再比如,人們喝完水后,如果杯子不是一次性的,人們往往就會(huì)將水杯放回原位,而不是隨手丟掉,這樣的行為,其實(shí)更多地遵循的是人類(lèi)常識(shí),而不是純粹的物理規(guī)律。

在理論上,Omniverse Replicator無(wú)法單獨(dú)生成訓(xùn)練Sora這類(lèi)視頻模型所需的所有數(shù)據(jù),特別是那些涉及高級(jí)語(yǔ)義理解、連貫敘事和高度抽象概念,以及復(fù)雜的人類(lèi)情感和社會(huì)互動(dòng)的實(shí)例,這些都是Omniverse Replicator目前的設(shè)計(jì)和功能范圍之外的。


另辟蹊徑


實(shí)際上,除了Omniverse Replicator這種路子外,使用虛幻5引擎生成相關(guān)數(shù)據(jù),也是一種備選策略。

在之前Sora放出的視頻中,人們就已經(jīng)發(fā)現(xiàn),某些視頻片段的效果,跟此前寫(xiě)實(shí)、逼真的畫(huà)風(fēng)有點(diǎn)不一樣,看上去更像是某種“3D風(fēng)格”,例如下面的這個(gè)大眼睛、長(zhǎng)睫毛、口噴冷氣的小白龍。


雖然OpenAI官方并未承認(rèn),但眼尖的網(wǎng)友一看就感覺(jué)到了,這玩意兒有虛幻5的影子!

但即使這種猜測(cè)是真的,虛幻5能提供的,大概率也只是對(duì)光線(xiàn)、場(chǎng)景、3D信息和物理交互的模擬數(shù)據(jù),本質(zhì)上和Omniverse Replicator一樣,只能提供一些很“硬”的物質(zhì)層面的模擬。

要真想搗鼓出一個(gè)啥都有的世界級(jí)視頻大雜燴數(shù)據(jù)集,就得想想新招。

一個(gè)挺極端的法子就是讓AI自產(chǎn)自銷(xiāo),自己造視頻來(lái)訓(xùn)練自己。但這里頭有個(gè)坑,要是這些AI親手做的視頻在訓(xùn)練材料里占太多了,就會(huì)出現(xiàn)“模型自噬”的風(fēng)險(xiǎn)。

換句話(huà)說(shuō),就是生成的東西越來(lái)越差。


在極端情況下,持續(xù)使用自我生成的數(shù)據(jù),可能會(huì)導(dǎo)致模型性能急劇下降,甚至模型完全失效,因?yàn)锳I可能會(huì)將前代模型的缺陷一代代放大。

去年,萊斯大學(xué)和斯坦福團(tuán)隊(duì)發(fā)現(xiàn),將AI生成的內(nèi)容喂給模型,只會(huì)導(dǎo)致性能下降。
研究人員對(duì)此給出一種解釋?zhuān)凶?/span>「模型自噬障礙」(MAD)。

研究發(fā)現(xiàn)在使用AI數(shù)據(jù),經(jīng)過(guò)第5次迭代訓(xùn)練后,模型就會(huì)患上MAD。

在合成數(shù)據(jù)上訓(xùn)練AI模型會(huì)逐漸放大偽影

這其中的機(jī)理,和生物學(xué)上因“近親繁殖”導(dǎo)致后代產(chǎn)生缺陷的情況十分類(lèi)似。

正如近親繁殖中的個(gè)體因遺傳池縮小而限制了遺傳多樣性,過(guò)度依賴(lài)AI生成的數(shù)據(jù),也會(huì)限制模型學(xué)習(xí)的多樣性,因?yàn)樗从车氖乔按P偷墓逃械睦斫猓?/span>而非原始的真實(shí)世界多樣性。

如果將模型比作人的話(huà),那么任何模型,即使數(shù)據(jù)質(zhì)量再高,也始終會(huì)存在稀缺的內(nèi)容,就像一個(gè)人的基因即使再好,也總會(huì)存在某些稀缺的因子。

這些“缺陷”在前代模型中不明顯或可接受,通過(guò)迭代訓(xùn)練過(guò)程,這些缺陷仍有可能被放大,尤其是在缺乏外部多樣性的情況下。

研究還發(fā)現(xiàn),提高合成質(zhì)量會(huì)損害合成多樣性。

對(duì)大模型來(lái)說(shuō),如果想表現(xiàn)出更好的泛化能力(所謂的舉一反三),就需要不斷適應(yīng)新的數(shù)據(jù)和場(chǎng)景,應(yīng)對(duì)新的挑戰(zhàn),從而總結(jié)出新規(guī)律、新關(guān)聯(lián)。

這就是為什么數(shù)據(jù)多樣性,對(duì)模型如此重要的原因。

既然這中文互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù),本來(lái)就不是很多,合成數(shù)據(jù)這條路,從技術(shù)上似乎也很難走得通,那么國(guó)產(chǎn)視頻大模型想要超過(guò)Sora,還能有哪些路子呢?


自我進(jìn)化

如果有一種辦法,能讓模型在自己生成數(shù)據(jù)的同時(shí),不陷入“自噬”的漩渦,還能不斷自我進(jìn)化,這豈不美哉?

講真,國(guó)內(nèi)已經(jīng)有部分AI企業(yè)走出了這條路子,例如智子引擎團(tuán)隊(duì)開(kāi)發(fā)的新型多模態(tài)大模型——Awaker 1.0就是這么個(gè)例子。


簡(jiǎn)單地來(lái)說(shuō),Awaker 1.0這個(gè)模型,之所以能突破以往的數(shù)據(jù)瓶頸,主要?dú)w功于自身獨(dú)特的三大功能:自動(dòng)生成數(shù)據(jù)、自我反思、持續(xù)更新。

首先,在自動(dòng)生成數(shù)據(jù)方面,Awaker 1.0主要通過(guò)網(wǎng)絡(luò)物理世界兩種途徑來(lái)搜集數(shù)據(jù),也就是說(shuō),它不光在網(wǎng)上到處搜索,看新聞、讀文章、學(xué)東西,還能在跟真實(shí)世界里的智能設(shè)備配合時(shí),通過(guò)攝像頭看東西、聽(tīng)聲音,理解周?chē)l(fā)生的事兒。


不過(guò),與簡(jiǎn)單的數(shù)據(jù)爬取不同的是,在搜集了這些多模態(tài)的數(shù)據(jù)后,Awaker 1.0還能理解和消化這些信息,并以此生成新的內(nèi)容,比如文字、圖像甚至視頻。之后再根據(jù)這些“反芻”后的內(nèi)容,不斷優(yōu)化和更新自己。

接下來(lái),強(qiáng)化后的Awaker 1.0可以生成質(zhì)量更高、更有創(chuàng)意的新數(shù)據(jù),如此循環(huán)往復(fù),就形成了一個(gè)自我訓(xùn)練的閉環(huán)。


換句話(huà)說(shuō),這實(shí)際上是一種動(dòng)態(tài)合成數(shù)據(jù)的方法,外部數(shù)據(jù)只是給它提供了“種子”,通過(guò)不斷地自生自吞,它可以不斷放大和擴(kuò)展這些初始數(shù)據(jù),持續(xù)為自己生成新的訓(xùn)練數(shù)據(jù)。

這就像是一個(gè)強(qiáng)悍的“增程發(fā)動(dòng)機(jī)”,則巧妙地利用了少量的燃料(數(shù)據(jù)),通過(guò)一個(gè)循環(huán)放大的過(guò)程,產(chǎn)生出遠(yuǎn)超燃料本身能量的動(dòng)力輸出。


同時(shí),為了在這個(gè)閉環(huán)中,糾正數(shù)據(jù)可能的偏差,Awaker 1.0不僅會(huì)對(duì)生成的數(shù)據(jù)進(jìn)行質(zhì)量評(píng)分和反思,過(guò)濾掉質(zhì)量不高的樣本,并且還會(huì)通過(guò)持續(xù)在線(xiàn)學(xué)習(xí)和迭代,根據(jù)新的外部數(shù)據(jù)和反饋,確保數(shù)據(jù)的實(shí)時(shí)性和準(zhǔn)確性。

如此一來(lái),模型既避免了受限于有限的外部數(shù)據(jù)源,也避免了陷入純合成數(shù)據(jù)可能導(dǎo)致的“模型自噬”現(xiàn)象。

而這種自我反饋和學(xué)習(xí)的機(jī)制,實(shí)際上也暗合了AI領(lǐng)域要統(tǒng)一理解側(cè)和生成側(cè)的想法。

Sora問(wèn)世后,越來(lái)越多聲音表示,要通往AGI,必須達(dá)成“理解和生成的大一統(tǒng)”。

這是因?yàn)?,人?lèi)智能的本質(zhì)就是對(duì)世界的理解和創(chuàng)造,目前的AI往往是專(zhuān)門(mén)從事理解任務(wù)(如分類(lèi)、檢測(cè))或生成任務(wù)(如語(yǔ)言模型、圖像生成)。但真正的智能需要打通理解和生成,形成閉環(huán)。


說(shuō)白了,要讓AI模仿人類(lèi)大腦的學(xué)習(xí)模式,邊看邊想,同時(shí)在自我輸出的過(guò)程中,根據(jù)不斷變化的現(xiàn)實(shí)進(jìn)行反思和調(diào)整。

用中國(guó)人的話(huà)來(lái)說(shuō),就是知行合一。

AI要做到這一點(diǎn),就需要能夠自己生成數(shù)據(jù)來(lái)訓(xùn)練自己,并從中不斷成長(zhǎng),隨著時(shí)間推移而不斷進(jìn)化。

這樣,即便面對(duì)從未見(jiàn)過(guò)的新情況,AI也能像人一樣,靈活應(yīng)對(duì),甚至有所創(chuàng)造,這就是在實(shí)現(xiàn)AGI上的重要一步。



酷玩實(shí)驗(yàn)室整理編輯
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
Sora“超級(jí)涌現(xiàn)力”將把AI引向何方
英偉達(dá)黃仁勛:我們給真實(shí)世界和元宇宙間建了個(gè)穿梭門(mén)
這次,黃仁勛廚房真是假的!英偉達(dá)40000幀渲染奇幻廚房
文生視頻模型 Sora 掀起了新一輪生成式 AI 模型浪潮,就在剛剛AI
元宇宙落地需要什么樣的技術(shù)?
20240219 離譜!真的太離譜了!
更多類(lèi)似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服