原創(chuàng):譚婧
“視覺自監(jiān)督算法這輪,你是不是沒跟上?”
我面前這位年薪近七十萬,互聯(lián)網(wǎng)大廠AI算法工程師的好友,
他用一個(gè)反問句回答了我的關(guān)心:
“自監(jiān)督這個(gè)玩意咋跟上?”
他抬了抬頭,又補(bǔ)了一句,
“自監(jiān)督又不是直接落地業(yè)務(wù)的(技術(shù))。”
這是2023年6月的一天。
天下有變,即便身處風(fēng)暴,依然有“跟不上”風(fēng)暴的可能。人人都擔(dān)心落后,也確實(shí)有人落后了,就在ChatGPT發(fā)狠那幾下子的瞬間。
沒機(jī)會(huì)實(shí)訓(xùn)大模型,轉(zhuǎn)而讀論文,看配套代碼,是“跟上時(shí)代”“對(duì)抗焦慮”“應(yīng)對(duì)領(lǐng)導(dǎo)”的標(biāo)準(zhǔn)動(dòng)作。
看論文是一件下功夫的事情,哪怕作為大模型的觀察者、寫作者的我也深深感受到,唯有研讀論文,才不會(huì)讓自己在下筆或者敲打鍵盤的時(shí)候顯得像個(gè)傻瓜。
市面上有很多大模型的名人名言,他們所說的,和揭示大模型本質(zhì)并沒有任何關(guān)系。
下功夫是一件奢侈的事情,不下功夫絕無可能做出國產(chǎn)通用基礎(chǔ)大模型。
“功夫”是一個(gè)極具中國哲學(xué)的詞匯,涵義可以很廣:遠(yuǎn)見,創(chuàng)新,定力,團(tuán)隊(duì),投入……
大模型論文是很好的線索,于是,我翻看了多篇“紫東太初”大模型團(tuán)隊(duì)的學(xué)術(shù)論文。
在此,感謝武漢人工智能研究院院長王金橋博士(中科院自動(dòng)化所研究員),副院長張家俊博士(中科院自動(dòng)化所研究員)。
他們陸續(xù)回答了我百余個(gè)問題,有時(shí)微信回復(fù)問題的時(shí)間幾近凌晨。如此,才讓這個(gè)系列的文章成為可能。
這篇文章的技術(shù)主題是視覺自監(jiān)督。視覺自監(jiān)督學(xué)習(xí)屬于自監(jiān)督學(xué)習(xí)技術(shù)的一個(gè)縱隊(duì)。
講自監(jiān)督學(xué)習(xí),就繞不過楊立坤(Yann LeCun)的一個(gè)比喻:“如果人工智能是一塊蛋糕,那么蛋糕的大部分是自監(jiān)督學(xué)習(xí),蛋糕上的糖衣是監(jiān)督學(xué)習(xí),蛋糕上的櫻桃是強(qiáng)化學(xué)習(xí)”。雖然這個(gè)說法仍有爭(zhēng)議,但是我個(gè)人非常喜歡。
將時(shí)間回溯到2021年4月,也就是下面這篇論文產(chǎn)出之時(shí)。
先引用王金橋院長的一個(gè)觀點(diǎn)來為第一篇論文定調(diào)。
Transformer 并不一定永遠(yuǎn)是最好的。Transformer底層原理值得多加探索。十幾年前,雖然卷積神經(jīng)網(wǎng)絡(luò)曾經(jīng)一統(tǒng)視覺江湖,但“一統(tǒng)”并不意味著“最好”。
我意識(shí)到,算法底層結(jié)構(gòu)尤其需要在“保鮮期”內(nèi)創(chuàng)新。
講一段神經(jīng)網(wǎng)絡(luò)發(fā)展的歷史。卷積網(wǎng)絡(luò)(CNN)醞釀風(fēng)云,殘差網(wǎng)絡(luò)(ResNet)才是暴雨來臨。
2015年,大神何愷明和其團(tuán)隊(duì)的代表作ResNet模型一經(jīng)問世,就風(fēng)靡全球。它是對(duì)CNN算法的一種基礎(chǔ)創(chuàng)新。其本質(zhì)是解決了CNN無法成功訓(xùn)練深度較大的神經(jīng)網(wǎng)絡(luò)的問題。此前AI科學(xué)家面臨的難題是,只要搭建的CNN網(wǎng)絡(luò)深了,層數(shù)多了(大于十幾層),訓(xùn)練就特別費(fèi)勁。
這篇被引用超12萬次的論文,一舉解決了模型訓(xùn)練的大難題。
舊事雖已陳年,創(chuàng)新規(guī)律不變。
現(xiàn)在這個(gè)階段依然是Transformer的“保鮮期”,那么,會(huì)不會(huì)有屬于Transformer的“殘差神經(jīng)網(wǎng)絡(luò)時(shí)刻”?
聽了王金橋院長的講解,我理解到,只有對(duì)Transformer深刻理解與大膽創(chuàng)新,才會(huì)有這個(gè)“時(shí)刻”。畢竟,算法設(shè)計(jì)屬于直覺(靈感)加上實(shí)驗(yàn)的科學(xué)。
Transformer是ChatGPT的基礎(chǔ)“元件”?!癟ransformer先在自然語言處理領(lǐng)域大放異彩,隨后短短幾年間便向視覺領(lǐng)域開疆拓土?!鳖愃七@樣的說法在很多篇大模型論文中都有提及。
Transformer在NLP所向披靡之后,走向視覺領(lǐng)域。視覺領(lǐng)域需要Transformer,也需要AI科學(xué)家的勤奮與巧思。
Transformer有其獨(dú)特的玩法。
訓(xùn)練開始之初,輸入數(shù)據(jù)之時(shí),會(huì)涉及一套精妙的“刀法”,圖像(圖片)會(huì)被切分,簡單理解就是把圖片分成小塊。
后面我會(huì)用一只老鷹的“藝術(shù)照”,來解釋這種類似刀法的精妙之處。有不少AI科學(xué)家在“刀法”上也下足了功夫,這是一個(gè)有趣的“點(diǎn)”創(chuàng)新抓手。
遷徙發(fā)生之時(shí),王金橋院長告訴我“癥結(jié)”所在:
“文本信息天然是一維形式,可以很好地切分字或字詞。而視覺信息往往是二維,直接均等切分的方式容易損壞視覺目標(biāo)的語義結(jié)構(gòu),導(dǎo)致圖片小塊和token的語義對(duì)應(yīng)不上?!?o:p>
這篇論文的作者們認(rèn)為,想把Transformer結(jié)構(gòu)用于視覺任務(wù),就需要一種調(diào)整所切圖片大小的方法。于是,這篇論文提出一個(gè)可變形的Transformer(DPT)結(jié)構(gòu),能夠自適應(yīng)地劃分圖片。這種思路和“硬”切分圖片相比,性能效果上的提高也是“肉眼可見”。
看看這張老鷹的照片,留意老鷹身體各個(gè)部位的細(xì)節(jié),鷹尾、鷹爪……
圖片中的鷹尾所占面積大,圖片就被分割得大些,鷹爪占的地方小,圖片就分得小一些。這種“刀法”的規(guī)律很好找到,我的理解是,不要硬切圖,而是按老鷹的部位切分。
一個(gè)圖片的分塊,對(duì)應(yīng)一個(gè)token;切圖片的“刀法”是同一語義盡量切在同一個(gè)圖片小塊里。學(xué)術(shù)上稱之為:把注意力(attention)相連的區(qū)域劃分到一起。
王金橋院長解釋道,Transformer用于視覺的論文,可分為兩類:
第一類是“組裝創(chuàng)新”,在現(xiàn)有的Transformer上面搭積木,對(duì)于特征提取能力和下游任務(wù)性能也有一定的好處。
第二類是內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,包括自注意力機(jī)制設(shè)計(jì)、網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、位置編碼調(diào)優(yōu)等幾類。DPT屬于這類,DPT既可以用于監(jiān)督,也可以用于自監(jiān)督學(xué)習(xí),它是個(gè)基礎(chǔ)網(wǎng)絡(luò)模型結(jié)構(gòu)。
這篇DPT論文的可變形的Transformer是紫東太初大模型視覺編碼部分的核心基礎(chǔ)技術(shù)。
近幾年,視覺自監(jiān)督學(xué)習(xí)風(fēng)云變化,暗起于將Transformer用于視覺任務(wù)。耐心的一種就是在大模型技術(shù)火爆之前,一步一個(gè)腳印。雖然不是全球大模型創(chuàng)新的急先鋒,但是耐心會(huì)獎(jiǎng)勵(lì)下功夫的人。
時(shí)間追溯到2021年7月,這篇是紫東太初大模型最重要的奠基性論文,打下了跨模態(tài)理解的基礎(chǔ)。齊集武漢人工智能研究院劉靜博士、王金橋博士、張家俊博士三大專家,保據(jù)“三模態(tài)”,深挖護(hù)城河。
論文中將圖文音三個(gè)模態(tài)對(duì)齊,問題是有三個(gè)模態(tài),究竟是哪個(gè)對(duì)齊哪個(gè)?
這篇論文的技術(shù)路徑,就是紫東太初大模型的技術(shù)路線,是把圖像、音頻兩個(gè)模態(tài)對(duì)齊于文本,統(tǒng)一在語言空間。放眼全球,大模型多模態(tài)技術(shù)路線各有千秋。美國Meta 公司在開源大模型的路上一騎絕塵,開源大模型LLaMA成功出道,遂又開源多模態(tài)大模型ImageBind。國外公司的大模型技術(shù)路線,雄心勃勃,一個(gè)模型包括的模態(tài)種類多達(dá)六種。
而ImageBind的路徑是將視覺表征作為目標(biāo),統(tǒng)一在視覺空間上。
多模態(tài)大模型中不同類型數(shù)據(jù)所含有的“信息含金量”不同,希望彼此之間補(bǔ)過拾遺,棄短用長。究竟統(tǒng)一于哪種類型,是科學(xué)家決策的重點(diǎn)之一,既是戰(zhàn)略觀點(diǎn),也是定位。
換個(gè)角度理解,這既是學(xué)術(shù)觀點(diǎn)不同,也是路線之爭(zhēng)。
談Transformer應(yīng)用于視覺任務(wù)的兩個(gè)開創(chuàng)性的工作,就離不開iGPT和ViT 。
ViT是有監(jiān)督的,iGPT是自監(jiān)督的,有很多工作集中火力提高視覺自監(jiān)督的效果和效率,這篇論文也是這個(gè)方向。
論文使用了兩個(gè)方法,重構(gòu)和對(duì)比學(xué)習(xí)。
第一,重構(gòu)。這一方法來源于NLP掩碼的方法訓(xùn)練。在語言模型中,模型并不知道被遮蓋住的字是 '譚',損失函數(shù)的目標(biāo)就是讓這個(gè)即將輸出的字和被蓋住的'譚'字越接近越好。NLP遮蓋住的部分是詞語,視覺遮蓋住的是圖片小塊。重建是希望圖片中的每一個(gè)小塊把它擋住之后,模型能夠重構(gòu)出來。
第二,對(duì)比學(xué)習(xí)(Contrastive Learning)。對(duì)比學(xué)習(xí)是通過比較兩個(gè)視覺圖像之間的相似性來找到它們之間的特征和區(qū)別。對(duì)比學(xué)習(xí)簡單的說,是一模一樣的兩張圖在特征空間的距離盡可能近,不同圖則盡可能遠(yuǎn)離。那一時(shí)期對(duì)比學(xué)習(xí)正是最流行的視覺自監(jiān)督學(xué)習(xí)。
一張照片重,譚婧在轉(zhuǎn)身,另一張?jiān)陲w奔,還有一張是畢業(yè)合影,全身被擋住了三分之二。這個(gè)方法本質(zhì)是在對(duì)比像不像,像就是同一個(gè)人。不像,就是另一個(gè)人。
學(xué)習(xí)對(duì)比度,從而學(xué)習(xí)視覺表示的特征。對(duì)比學(xué)習(xí)這一方法的出現(xiàn),代表著AI科學(xué)家們對(duì)于視覺表示學(xué)習(xí)有了更深入理解。
對(duì)比學(xué)習(xí)早期由谷歌公司Hinton團(tuán)隊(duì)拉開序幕,在2020年CVPR會(huì)議上提出SimCLR算法。此后,美國Meta公司 AI Research何愷明團(tuán)隊(duì)用MoCo把工作向前推進(jìn)一步,他們把對(duì)比度學(xué)習(xí)比作查字典。眾所周知,按索引查字典比按順序翻看字典的方法高效。
(一種是在全部隊(duì)列中依次尋找,另一種是以全局視角來找圖片小塊所對(duì)應(yīng)文字的token。接著,動(dòng)量更新參數(shù)更平滑,保持模型穩(wěn)定性。)
彼時(shí),準(zhǔn)星瞄準(zhǔn)在視覺自監(jiān)督學(xué)習(xí)的性能這個(gè)火力點(diǎn)。但這并不是終點(diǎn)戰(zhàn)場(chǎng)。
視覺自監(jiān)督學(xué)習(xí)當(dāng)前存在兩個(gè)問題,即局部信息提取不足和空間信息丟失。為了克服上述問題,論文提出了MST。MST捕獲圖片小塊之間的局部關(guān)系,同時(shí)保留全局語義信息。
論文的方法有兩個(gè)步驟:第一步先改進(jìn)Transformer結(jié)構(gòu)(比如前面提及的論文DPT)。第二步,為了把視覺通用特征表達(dá)訓(xùn)練好,也就是把視覺編碼器訓(xùn)練好,論文作者們把對(duì)比學(xué)習(xí)和重建融合訓(xùn)練,一次訓(xùn)練有兩個(gè)目標(biāo)函數(shù),相當(dāng)于同時(shí)滿足兩個(gè)條件。
最后,有了重建的記憶能力,對(duì)比學(xué)習(xí)能力也就提升了。所以自監(jiān)督學(xué)習(xí)的效果就提升了,而且訓(xùn)練的速度也快了。
雖然對(duì)比學(xué)習(xí)算法比語言模型的算法更為復(fù)雜,但隨著發(fā)展,這個(gè)問題將被解決。其標(biāo)志為通用視覺大模型的橫空出世,把所有的圖片都看懂,同時(shí)模型也有語言能力,來幫助視覺模型表達(dá),“一圖頂千言”變?yōu)椤耙粓D的千言都能被大模型理解,并用語言表達(dá)出來”。
王金橋院長認(rèn)為,這個(gè)階段的成熟視覺大模型會(huì)是雙模態(tài)的,即圖文并茂,使得人們可以通過視覺來理解和探索世界。當(dāng)然,這是一個(gè)還在追逐的目標(biāo)。雖然目前的通用視覺模型經(jīng)常犯錯(cuò)誤,但是也已經(jīng)展示了強(qiáng)大的通用性和處理復(fù)雜任務(wù)的能力。
王金橋老師的原話就是:“這個(gè)經(jīng)典通用視覺大模型會(huì)在2023年底之前問世,我們不把它做出來,OpenAI也會(huì)做出來。競(jìng)爭(zhēng)就是如此?!?/span>
參閱很多綜述類論文后,我了解到,這一時(shí)期的對(duì)比學(xué)習(xí)已經(jīng)成為視覺自監(jiān)督學(xué)習(xí)的主流方法。
對(duì)比學(xué)習(xí)在這個(gè)時(shí)期依賴大量的單目標(biāo)圖像,這個(gè)做法已經(jīng)給對(duì)比學(xué)習(xí)帶來了局限。
什么是單目標(biāo)圖像?舉一個(gè)例子,模型訓(xùn)練的目標(biāo)是讓模型找到一匹馬,圖片里只有馬,這種更像實(shí)驗(yàn)室里的任務(wù),而在現(xiàn)實(shí)世界,往往要求解決多目標(biāo)圖像的任務(wù)。
要我說,“古道西風(fēng)瘦馬”,瘦馬擺出不同姿勢(shì),模型能不能認(rèn)出?本質(zhì)是理解目標(biāo)。
“結(jié)廬在人境,而無車馬喧”里車和馬的關(guān)系,本質(zhì)是理解目標(biāo)與場(chǎng)景的關(guān)系,這都需要模型去學(xué)習(xí)。
因?yàn)槌7稿e(cuò)誤的本質(zhì)是大模型不理解“關(guān)系”。如此這般,我估計(jì)在下一階段做圖片生成的時(shí)候,就可能把車生成在馬腦袋上。
王金橋院長認(rèn)為,論文研究的目標(biāo)是學(xué)習(xí)關(guān)聯(lián)關(guān)系之間的特征,學(xué)出來了,就掌握了“關(guān)系”。圖片小塊與小塊之間的關(guān)系,以及與之對(duì)應(yīng)的token的語義之間的關(guān)系。
這篇論文的方法是建造了一個(gè)視覺大模型預(yù)訓(xùn)練框架UniVIP,用統(tǒng)一的預(yù)訓(xùn)練框架,學(xué)習(xí)不同圖片小塊之間的統(tǒng)計(jì)特性?;蛘哒f,UniVIP是視覺自監(jiān)督學(xué)習(xí)的編碼器。把潛在的語義關(guān)系都學(xué)出來,被稱為隱式知識(shí)圖譜。
這段話是我寫的,但是表達(dá)也真夠枯燥。知識(shí)圖譜擅長關(guān)系,關(guān)系是一類特征。
視覺任務(wù)在上一階段干了很多“找東西”的工作,比如目標(biāo)檢測(cè)。這些目標(biāo)之間的關(guān)系里也藏著規(guī)律,模型需要繼續(xù)學(xué)習(xí)。
王金橋院長解讀:“不能只理解圖片局部的內(nèi)容,用自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練框架UniVIP,學(xué)習(xí)圖像之間的關(guān)系。(比如,場(chǎng)景和場(chǎng)景的相似性,場(chǎng)景和目標(biāo)的相似性,目標(biāo)和目標(biāo)的可區(qū)分性。)”
在視覺自監(jiān)督學(xué)習(xí)能力進(jìn)步的背后,是學(xué)者們兼程而進(jìn)。
不僅如此,王金橋院長繼續(xù)談道:“原來模型只是學(xué)一個(gè)層次,現(xiàn)在一口氣學(xué)三個(gè)層次。專業(yè)說法是,學(xué)習(xí)不同粒度之間的統(tǒng)一表達(dá)。學(xué)得更多,懂得越多。論文作者們的目的是盡量把視覺信息里所有的特性信息都學(xué)出來?!?span lang='EN-US'>
向上一路。論文作者們希望視覺大模型能夠?qū)W到通用的世界的知識(shí),來路可鑒,一路向前,往通用大模型的方向發(fā)展。
通用大模型若無法實(shí)現(xiàn)“統(tǒng)一表達(dá)”,遑論“通用”。小模型有小模型的用處,但是,一堆小模型“一起干活”的工作方法不會(huì)是主流。
絕大多數(shù)的從業(yè)者是從小模型起家。王金橋院長的觀點(diǎn)是:“別被你眼前擰了一個(gè)螺絲釘?shù)幕?,限制了你?duì)整體大局的判斷?!?span lang='EN-US'>
過去成功,未來未必成功。
下功夫也意味著,打硬仗、重投入、周期長、有耐心。
2022年10月的這篇論文將文本知識(shí)引入到視覺模型中,是作者們?cè)谝曈X多任務(wù)統(tǒng)一表達(dá)這條道路上繼續(xù)前進(jìn),越過眼前的困擾,往前看,往深處探索。
2023年5月這篇論文的重點(diǎn)是,解決當(dāng)前掩碼自監(jiān)督學(xué)習(xí)中的低效訓(xùn)練和預(yù)測(cè)不一致性的問題,讓數(shù)據(jù)在預(yù)訓(xùn)練時(shí)期得到充分利用,并使預(yù)測(cè)趨于一致。
MAE的掩碼用的是隨機(jī)采樣的方法,每次采樣情況不同,所以大模型要訓(xùn)練很多遍,效率低。(K是圖片中token的總數(shù))。
過程中,需要對(duì)不同大小的像素塊掩碼,比如,4X4意味著每次遮蓋16個(gè)像素。會(huì)有一種糟糕的情況,可能這16個(gè)像素,被重復(fù)采樣多次,又或者一直沒有被采樣到。此時(shí),我們稱之為每個(gè)區(qū)域采樣不均衡。所以,模型收斂存在一定不確定性。
這篇論文在探索均衡采樣。第一,通過使每個(gè)區(qū)域的掩碼分布均衡,這意味著每個(gè)區(qū)域遮蓋的次數(shù)和可能性是相同的。第二,數(shù)據(jù)的采樣也做到均衡,不同圖片的不同區(qū)域被采樣的次數(shù)也均衡。
此外,作者提出了自洽損失,也就是自我一致性,使得不同輸入的組合在相同位置的預(yù)測(cè)一致,從建模角度上使得模型滿足了自洽原則,驅(qū)使模型預(yù)測(cè)一致。
掩碼自監(jiān)督學(xué)習(xí)是視覺自監(jiān)督學(xué)習(xí)重點(diǎn)中的重點(diǎn),如何讓掩碼效率更高,是科學(xué)家現(xiàn)階段要回答的問題。用好MLM技術(shù)重要,改進(jìn)MLM更重要。這篇論文方法的切入點(diǎn)是把數(shù)據(jù)利用得好(充分),采樣更均衡,以盡量少的訓(xùn)練次數(shù),使模型盡快收斂。
分布式訓(xùn)練框架又被稱為底層基礎(chǔ)軟件。這是一篇“魚與熊掌兼得”的學(xué)術(shù)論文。為什么這么說?謎底我會(huì)在稍后揭曉,先奉上這篇論文的真材實(shí)料。
大模型需要計(jì)算集群才能完成艱巨的訓(xùn)練任務(wù),如果大模型只有三個(gè)難點(diǎn),那分布式框架會(huì)是其中一個(gè)。
作為典型的基礎(chǔ)工作,在這個(gè)方面,谷歌Jeff Dean團(tuán)隊(duì)世界領(lǐng)先。這篇論文出自紫東太初團(tuán)隊(duì)大模型,相當(dāng)于將已有且成功的工程實(shí)踐發(fā)表為學(xué)術(shù)論文。
沒有分布式框架無法訓(xùn)練“身負(fù)”大參數(shù)量的大模型。從論文出產(chǎn)的角度,這是一個(gè)大模型的基礎(chǔ)工作在目標(biāo)檢測(cè)任務(wù)上跑了一個(gè)結(jié)果,順便發(fā)了一篇頂級(jí)學(xué)術(shù)會(huì)議論文而已。這項(xiàng)工作的負(fù)責(zé)人是朱優(yōu)松博士。
同時(shí),我也了解到這個(gè)分布式框架曾跑在鯤鵬實(shí)驗(yàn)室早期的計(jì)算集群上。
目標(biāo)檢測(cè)是指在圖像或視頻中定位和識(shí)別對(duì)象,是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要問題,但是在這篇論文中,論文作者們有一種“項(xiàng)莊舞劍,意在沛公”的意味,目標(biāo)檢測(cè)任務(wù)不是目的,而是想用目標(biāo)檢測(cè)任務(wù)為后續(xù)的視覺自監(jiān)督打基礎(chǔ)。
訓(xùn)練時(shí)用較大批次樣本會(huì)加大訓(xùn)練難度,困難有兩個(gè)方面:一方面支持訓(xùn)練的基礎(chǔ)軟件要有實(shí)力,一方面需要梯度優(yōu)化技術(shù)。
論文中梯度優(yōu)化技術(shù)的方法是PMD-LAMB,Periodical Moments Decay LAMB,中文翻譯為周期性矩衰減優(yōu)化。算法創(chuàng)新在于,每次網(wǎng)絡(luò)更新依賴于累積的歷史梯度,其滯后性會(huì)阻礙模型的快速收斂;設(shè)計(jì)在梯度計(jì)算的過程中用一個(gè)周期性矩衰減函數(shù)控制歷史梯度對(duì)更新量的貢獻(xiàn),使計(jì)算出的梯度能夠有效可控,避免梯度爆炸。
這個(gè)矩衰減的函數(shù)就相當(dāng)于一個(gè)有序列的矩陣。這個(gè)矩陣先進(jìn)先出,后進(jìn)后出,維持了一個(gè)有一定規(guī)模的矩陣,好比一個(gè)過渡作用的房間。6000個(gè)樣本進(jìn)入房間后,能夠有效地控制進(jìn)出,控制梯度。損失函數(shù)下降的曲線在訓(xùn)練的過程中更加平滑。
現(xiàn)階段,視覺自監(jiān)督學(xué)習(xí)在多任務(wù)統(tǒng)一建模方面的問題沒有完全解決,這也是視覺大模型通用性不足的原因之一。
寫到這里,我相信讀者應(yīng)該逐步理解了,視覺自監(jiān)督的復(fù)雜性遠(yuǎn)高于比語言自監(jiān)督。
因?yàn)橐曈X自監(jiān)督學(xué)習(xí)采樣空間大,隨機(jī)采樣范圍大。在掩碼遮蓋的過程中,復(fù)雜度指數(shù)級(jí)上升。而在NLP領(lǐng)域,遮蓋的只是文字。文字是一維的,而視覺是二維甚至三維的。
煉就一個(gè)國產(chǎn)大模型所包含的技術(shù)難度史無前例,“紫東太初”大模型跋山涉水,從頂級(jí)工程實(shí)踐和先進(jìn)理論兩個(gè)角度驗(yàn)證現(xiàn)有工作,河山帶礪,春山可望。
國產(chǎn)大模型注定艱難,作為科技科普作者的我,學(xué)習(xí)上進(jìn)的壓力也很大??茖W(xué)家們夜以繼日,直面時(shí)代挑戰(zhàn)。有時(shí)候,他們也是我的精神支柱。午夜星光,凌晨拂曉,每每加班加不下去的時(shí)候,想起他們也在加班,我的心里就舒服多了,繼續(xù)寫。
聯(lián)系客服