九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
萬字深度好文!視覺-語言(VL)智能:任務(wù)、表征學(xué)習(xí)和大型模型

編譯丨Jocelyn

編輯丨陳彩嫻

本文對視覺-語言(VL)智能按時間順序進行了全面調(diào)研,并將這一領(lǐng)域的發(fā)展總結(jié)為三個階段:

第一個階段是2014-2018年,其間,專門的模型被設(shè)計用于不同的任務(wù)。第二個時代是2019-2021年,在此期間,通過使用有著高質(zhì)量標簽的VL數(shù)據(jù)集進行預(yù)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)模型能夠?qū)W習(xí)視覺和語言的聯(lián)合表征。最后,隨著2021年CLIP的出現(xiàn),第三個時代開始了,此時研究人員尋求在更大的弱標簽數(shù)據(jù)集上預(yù)訓(xùn)練VL模型,并通過VL預(yù)訓(xùn)練獲得性能強大的基于零樣本或少樣本的視覺模型。

我們相信這篇綜述將有助于人工智能(AI)和機器學(xué)習(xí)(ML)的研究人員和實踐者,特別是那些對計算機視覺和自然語言處理感興趣的人。

論文地址:https://arxiv.org/pdf/2203.01922.pdf

1
研究背景

計算機視覺(CV)和自然語言處理(NLP)是人工智能的兩大分支,它們專注于在視覺和語言上模擬人類智能。在過去的十年中,深度學(xué)習(xí)極大地推進了單模態(tài)學(xué)習(xí)在這兩個領(lǐng)域的發(fā)展,并在一系列任務(wù)上取得了先進的成果。深度學(xué)習(xí)顯著進步的核心在于GPU的快速發(fā)展和大規(guī)模數(shù)據(jù)集的可用出現(xiàn),這些加速了深度學(xué)習(xí)模型的大規(guī)模訓(xùn)練。

隨著深度學(xué)習(xí)的發(fā)展,我們也看到了一系列功能強大的神經(jīng)網(wǎng)絡(luò)的發(fā)展。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)通常是由多層線性層和非線性激活組成的多層感知器(MLP)。LeCun等人于1998提出了卷積神經(jīng)網(wǎng)絡(luò)(CNN),將平移不變性作為對2D視覺輸入的更好的歸納偏差,這啟發(fā)了大量的深度神經(jīng)網(wǎng)絡(luò),包括AlexNet,VGGNet, GoogleNet和ResNet。

另一個主要的突破是自然語言處理(NLP)領(lǐng)域的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它提出了循環(huán)神經(jīng)元用于序列數(shù)據(jù)建模。為了緩解長序列訓(xùn)練中的梯度消失和梯度爆炸問題,LSTM(RNN的一種變體)和GRU(LSTM的一種更高效的版本)被提出。NLP的另一個重大突破是Transformer,它利用注意力機制追求更好的語言表征。使用多個堆疊的注意力層,Transformer可以以高并行性在全局范圍內(nèi)融合語言符號的信息,這有利于有效的表征和大規(guī)模的訓(xùn)練。

雖然我們在單模態(tài)領(lǐng)域技術(shù)取得了鼓舞人心的進展,但現(xiàn)實世界的問題往往是涉及多模態(tài)的。例如,自動駕駛汽車應(yīng)該做到能夠處理人類的命令(語言)、交通信號(視覺)、道路狀況(視覺和聲音)。即便單模態(tài)學(xué)習(xí)也能從多模態(tài)學(xué)習(xí)中受益。例如,語言學(xué)習(xí)需要感知,而感知是許多語義公理的基礎(chǔ)。

感知是人類理解物質(zhì)世界的方式,決定了人類語言背后的意義。由于我們聽到和看到的是同樣的事情,一些知識便被留下來作為常識,這些常識在我們的語言中是沒有記錄的。即便僅僅在語言領(lǐng)域,演講也比純文本包含更多有用的信息,例如,韻律可以暗示情感。

多模態(tài)感知在多模態(tài)和單模態(tài)任務(wù)中都有幫助,因此誕生了大量的相關(guān)研究工作。在多模態(tài)領(lǐng)域中,由于視覺是人類用于理解環(huán)境最重要的感官之一,并且語言-視覺特征結(jié)合能夠極大地改善視覺和視覺-語言任務(wù)的表現(xiàn),在視覺-語言集成的相關(guān)研究獲得到許多的關(guān)注。此外,視覺語言智能的普及還得益于該領(lǐng)域豐富的數(shù)據(jù)集和評估標準。

解決特定任務(wù)VL問題的雄心推動了VL學(xué)習(xí)的初步發(fā)展。這些VL問題包括圖像字幕、視覺問答(VQA)、圖像-文本匹配等。Xu一些人于2015年的工作集成了一個CNN圖像編碼器和一個RNN文本解碼器用于圖像說明。Antol等人于2016年通過將圖像和文本映射到相同的潛在空間并從潛在表征中預(yù)測答案來解決VQA任務(wù)。Lee等人于2018年通過計算圖像和文本在句子級別或標記級別上的相似度來進行圖像-文本匹配。這些模型是為各種數(shù)據(jù)集的特定問題量身定制的,其中每個模型只能解決一個任務(wù)。

受語言和視覺的預(yù)訓(xùn)練和微調(diào)的流行啟發(fā),視覺和語言的跨學(xué)科領(lǐng)域迎來了一個新時代: 通過圖像-文本對的預(yù)訓(xùn)練來學(xué)習(xí)視覺和語言的聯(lián)合表征。VLP模型的興起主要是受到了架構(gòu)設(shè)計和訓(xùn)練方法中語言模型的啟發(fā)。例如,最近的許多研究采用了與BERT相似的架構(gòu)和訓(xùn)練方法。由于缺乏足夠大規(guī)模的人工標注數(shù)據(jù),VL學(xué)習(xí)的發(fā)展面臨著嚴峻的挑戰(zhàn)。最近,一些研究通過采用對比學(xué)習(xí)和利用大規(guī)模網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)學(xué)習(xí)視覺語言特征而打破了這一限制,它們所獲得的特征可用于零樣本學(xué)習(xí)。

隨著VL領(lǐng)域的快速發(fā)展,目前亟需一個對該領(lǐng)域現(xiàn)有研究的全面調(diào)研。本文旨在提供一個結(jié)構(gòu)化的、關(guān)于VL領(lǐng)域的最新進展的綜述,以幫助研究人員獲得一個整體的VL領(lǐng)域的情況,并更好地理解最新的研究成果。

我們將VL學(xué)習(xí)的發(fā)展分為三個階段。第一個是從2014-2018年,其間,專門的模型被設(shè)計用于不同的任務(wù)。第二個時代是2019-2021年,在此期間,通過使用有著高質(zhì)量標簽的VL數(shù)據(jù)集進行預(yù)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)模型能夠?qū)W習(xí)視覺和語言的聯(lián)合表征。最后,隨著2021年CLIP的出現(xiàn),第三個時代開始了,此時研究人員尋求在更大的弱標簽數(shù)據(jù)集上預(yù)訓(xùn)練VL模型,并通過VL預(yù)訓(xùn)練獲得性能強大的基于零樣本或少樣本的視覺模型。

回顧VL智能的整個發(fā)展過程,我們發(fā)現(xiàn)其總體目標是學(xué)習(xí)良好的視覺特征。一個好的視覺特征應(yīng)該具有三個屬性,即對象級別、語言對齊和語義豐富。對象級別意味著視覺和語言特征的細粒度應(yīng)該分別與對象級別和單詞級別中的保持一致。語言對齊強調(diào)的是與語言對齊的視覺特征可以幫助完成視覺任務(wù)。語義豐富是指不受領(lǐng)域限制地從大規(guī)模數(shù)據(jù)中學(xué)習(xí)特征。

在VL的第一個時代,相關(guān)科學(xué)研究工作的目的是解決具體的問題,而不是學(xué)習(xí)上述良好的特征。在第二個時代,研究人員基于圖像-文本對來訓(xùn)練模型,以獲得語言對齊的視覺特征。這個時代的一些研究成果采用檢測到的區(qū)域作為圖像特征,從而學(xué)習(xí)對象級別的特征。只有在第三個時代,研究人員才能處理大規(guī)模的數(shù)據(jù)集并使用蘊含豐富語義信息的特征來預(yù)訓(xùn)練。

2
特定任務(wù)問題

早期的 VL 方法是針對特定任務(wù)設(shè)計的。VL領(lǐng)域包含廣泛任務(wù),包括圖像說明,視覺問答,圖文匹配,視覺對話等。

本節(jié)中,我們詳細介紹三個最常見的任務(wù):圖像說明、視覺問答和圖文匹配。我們總結(jié)了特定任務(wù)方法的發(fā)展是從全局表征到細粒度的以對象為中心的表征。

大多數(shù)VL任務(wù)有三個階段,包括全局向量表征和簡單融合;網(wǎng)格特征表征和跨模態(tài)注意力機制和以對象為中心的特征表征和自底向上自頂向下的attention。這三個階段的代表工作如圖1所示。

圖1所示,這三個階段的任務(wù)具體方法。主要區(qū)別在于視覺representation的粒度和視覺與語言特征融合的方式。

A 圖像說明

任務(wù)定義: 圖像說明的目標是為給定的圖像生成“標題”,即用一句話總結(jié)圖像內(nèi)容。標題通常包含感興趣的對象、對象的行為以及對象之間的位置關(guān)系。

方法: 深度學(xué)習(xí)出現(xiàn)之前,早期圖像說明方法主要基于規(guī)則。它們首先識別對象及其關(guān)系,然后根據(jù)預(yù)定義的規(guī)則生成標題。這種早期的方法由于視覺識別器詞匯量有限以及基于規(guī)則的方法在處理人類語言中復(fù)雜場景的局限性的原因而效果有限。

深度學(xué)習(xí)技術(shù)的突破極大地增強了圖像說明功能。Seq2Seq在機器翻譯方面取得了巨大的成功,它利用文本編碼器對源語言的文本進行編碼,利用文本解碼器從目標語言生成文本。

在Seq2Seq的編碼器-解碼器結(jié)構(gòu)的基礎(chǔ)上,Xu等人提出用GoogleNet的圖像編碼器替代文本編碼器,并取得了當時最前沿的性能。于是這種編碼-解碼的結(jié)構(gòu)開始流行起來,并被后續(xù)的工作廣泛采用。這個結(jié)構(gòu)稱為img2seq,如圖2所示。

早期研究采用CNN模型作為圖像編碼器進行提取一種全局的CNN特性,將其作為初始隱藏狀態(tài)輸入文本解碼器。m-RNN和LRCN提出將全局CNN特征添加到LSTM解碼器的每一步。

圖2所示,img2seq結(jié)構(gòu)包含圖像編碼器(如CNN)和語言解碼器(如LSTM)。

全局CNN特征有一個明顯的弱點,因為解碼器不能像人類那樣聚焦于圖像的重要區(qū)域。為解決這個問題,引入了注意機制。

Xu等人于2015年提出了一種將注意力機制引入特征的方法。假設(shè)CNN特征提取器的輸出特征圖形狀為(H, W, C),其中H, W為特征圖的高度和寬度,C為特征維數(shù)。feature map可以沿空間維度扁平化為H × W的C個緯度的網(wǎng)格特征。對于LSTM解碼器的每個cell,隱藏狀態(tài)都要關(guān)注網(wǎng)格特征,以決定關(guān)注哪個網(wǎng)格。

與卷積相比,注意機制具有以下優(yōu)點。它通過對重要的網(wǎng)格特征給予更高的attention權(quán)重,使模型能夠聚焦于圖像的某些部分。此外,該模型能夠?qū)W習(xí)與人類直覺高度相似的對齊方式。模型的可解釋性也可以通過可視化的attention分數(shù)得到改善,這樣可能有助于排除網(wǎng)絡(luò)錯誤。

然而,將一幅圖像分割成大小相同的網(wǎng)格只是一種執(zhí)行attention的樸素方法,因為網(wǎng)格與對象的對應(yīng)關(guān)系很差。為了解決這個問題,一些研究人員試圖將注意力與更有意義的區(qū)域聯(lián)系起來。

Anderson等人(2018)提出了一種自底向上和自頂向下的注意力方法(BUTD),將注意力與檢測模型獲得的顯著區(qū)域進行對應(yīng)。BUTD使用在視覺基因組上預(yù)訓(xùn)練的Faster-RCNN模型提取區(qū)域特征。由于檢測到的對象區(qū)域通常包含有意義的視覺概念,且能夠與人類語言更好地匹配,因此BUTD顯著提高了圖像說明和VQA的性能。因此,預(yù)訓(xùn)練的檢測器在后續(xù)的VL研究中被廣泛采用。

注意力機制運用的方式也有一些不同。例如,Lu等認為因為有些單詞與視覺特征無關(guān),解碼器不需要一直保持關(guān)注視覺特征。因此,他們提議用一個門來決定注意力機制是否參與其中。AoA設(shè)計了一個特殊的“注意力疊加機制”的圖像說明任務(wù)。在標準注意力機制之后,它們將被關(guān)注的向量和query連接起來。然后由串聯(lián)向量生成信息向量和注意門,將信息向量與信息向量相乘得到輸出。

除上述工作,也有不運用注意力機制的工作。例如,Neural Baby Talk首先生成一個句子模板,然后用圖像中檢測到的概念填充它。Cornia等人通過預(yù)測名詞塊的序列來生成一個句子。它們首先檢測區(qū)域,然后使用排序網(wǎng)絡(luò)對區(qū)域進行排序。最后,每個區(qū)域?qū)⒈晦D(zhuǎn)換成一個名詞塊來組成句子。

綜上所述,早期圖像說明方法的發(fā)展主要有兩個方面,即視覺表征和語言解碼。視覺表征從圖像級的全局特征發(fā)展到細粒度和對象級的區(qū)域特征,語言解碼從LSTM發(fā)展到基于注意力機制的模型。

B. 視覺問答

任務(wù)定義: 給定一個圖像-問題對,視覺問答要求根據(jù)圖像回答一個問題。大多數(shù)研究都將視覺問答視為一個基于預(yù)定義答案集的分類問題。例如,VQA v2 有大約2K個預(yù)定義答案。

方法: 普遍的視覺問答是LSTM問題編碼器和VGG圖像編碼器的組合。輸出圖像潛入和問題嵌入,它們通過逐點相乘來簡單地進行融合。然后,融合向量經(jīng)過一個線性層和一個Softmax層,輸出選擇每個候選答案的概率。模型的體系結(jié)構(gòu)如圖3所示。視覺問答中的后續(xù)研究通常采用相同的方法原型。

圖3所示。vanilla VQA的體系結(jié)構(gòu)包含一個CNN模型來編碼輸入圖像和一個LSTM模型來編碼輸入問題。將編碼后的圖像和問題特征進行點積合并,然后通過全連通層來預(yù)測候選答案的概率。

早期研究通常采用全局圖像表征和簡單融合的方式。Malinowski等于2015提出將CNN圖像特征輸入到問題編碼器的每個LSTM 單元中。同年,Gao等使用了一個共享的LSTM來編碼問題和解碼答案。他們將CNN圖像特征與每個解碼器單元的輸出融合,逐字生成答案。

問題回答通常只與圖像的某些區(qū)域有關(guān)。因此,由于不相關(guān)區(qū)域帶來的噪聲,全局表征只會導(dǎo)致次優(yōu)解。Yang 等人于2016年提出了堆疊注意網(wǎng)絡(luò)(stacking Attention Network, SAN)將多個問題引導(dǎo)的注意層堆疊起來。在每一層中,問題的語義表示被用作對圖像網(wǎng)格的查詢。SAN是是一個驗證視覺問答中注意力有效性的工作。Fukui等人同樣采用了網(wǎng)格特征,他們通過雙線性池化融合圖像和語言特征。

正如我們在圖像說明任務(wù)中所說,網(wǎng)格特征具有它的局限性。針對這個問題,Shih等人提出使用邊緣框定位出的區(qū)域特征作為視覺表征。BUTD預(yù)訓(xùn)練了一個強大的檢測器,并使用問題特征作為queries來關(guān)注區(qū)域特征。Lu等人認為對文字的關(guān)注與對圖像的關(guān)注同等重要。因此,他們開發(fā)了一種聯(lián)合執(zhí)行文本引導(dǎo)的圖像注意力和圖像引導(dǎo)的文本注意力的共注意力方式。

除注意力以外,還有其他的模態(tài)融合策略。Ren等人將圖像特征視為語言標記。它們將圖像嵌入與語言標記連接起來作為LSTM的輸入。Kim等人提出了一種用于模態(tài)融合的元素乘法迭代方法,名為多模態(tài)殘差網(wǎng)絡(luò)。MUTAN提出了模式間參數(shù)化的雙線性相互作用。雖然融合圖像和語言特征的方法有很多,但注意力機制依舊是最常用的一種。

圖像問答的核心是獲取圖像和語言(問題)的聯(lián)合表征。該領(lǐng)域的研究人員通過多種方式來更好地編碼和融合圖像與語言,為后續(xù)的視覺學(xué)習(xí)表征VLP方法奠定了基礎(chǔ)。該領(lǐng)域大多數(shù)工作都是將圖像和語言獨立編碼,然后進行融合,這類似于視覺學(xué)習(xí)表征VLP中的雙流方法。Ren等人將圖像嵌入視為一種語言標記,類似于單流方法。

C.圖文匹配

任務(wù)定義: 圖像-文本匹配 (ITM),或說圖文檢索,是視覺領(lǐng)域的基本課題之一。給定一個特定模態(tài) (視覺或語言) 的query ,它的目標是從另一個模態(tài)中找到語義上最接近的目標。根據(jù)query和目標模式,它包含兩個子任務(wù): 圖像-文本檢索和文本-圖像檢索。

方法: 圖像-文本匹配的核心是計算圖像與文本之間的相似度或距離。一個被廣泛采用的模型是將圖像和文本映射到共享的嵌入空間,然后計算它們的相似性。所匹配出的圖像結(jié)果預(yù)期與句子的相似度最高。

早期方法主要采用全局特征對圖文信息進行編碼。Kiros等提出了一種基于鉸鏈的三聯(lián)體排序損失的交叉視圖表示方法。Faghri等人考慮硬負樣本因素來提高性能。Karpathy等人提出“深度片段” (Deep Fragment),這是首次嘗試在圖像端和文本端都使用細粒度表示的方法。

“Deep Fragment”的體系結(jié)構(gòu)如圖4所示。與直接表示整個圖像和句子不同,該方法將每個圖像片段和句子片段映射到跨模態(tài)嵌入空間中。然后于不同模式之間排列片段。由于一個圖像區(qū)域可能與多個單詞相關(guān),他們會為每個單詞的嵌入找到最相似的區(qū)域。圖像與句子的相似度是對齊后的詞對與區(qū)域?qū)Φ南嗨贫戎汀?/span>

圖4所示。Deep fragment結(jié)構(gòu)概述。左:將檢測到的對象映射到片段嵌入空間。右:依賴樹關(guān)系被編碼為片段嵌入空間。

由于注意力機制在其他視覺學(xué)習(xí)任務(wù)中取得了巨大成功,Huang等2016年提出將注意力機制引入到圖文匹配(ITM)中。他們開發(fā)了一種上下文調(diào)節(jié)的注意力方案,以關(guān)注出現(xiàn)在圖像和文本中的實例對。Nam等2017年提出了一種雙注意力框架,該框架通過多個步驟來關(guān)注圖像和文本中的特定區(qū)域,并從這兩種模態(tài)中收集重要信息。

這些方法證明了注意力機制在ITM任務(wù)中的有效性。但是它們也存在局限性,比如它們是基于多步驟的方法,并且一次只能關(guān)注一個語義部分。Lee等人于2018提出了一種名為SCAN的交叉注意力算法,用于計算圖像和句子之間的相似性。為實現(xiàn)交叉注意力機制,它們將圖像表示為一組區(qū)域,將句子表示為一組單詞。交叉注意的核心思想是,既要用句子作為query來關(guān)注圖像區(qū)域,也要用圖像作為query來關(guān)注單詞。

簡單來說,圖文匹配本質(zhì)上是計算圖像和文本之間的相似度的問題。早期研究將圖像和文本編碼成全局特征,并通過點積計算它們的余弦相似度。在隨后的工作中,采用了細粒度特征-目標級特征來代表圖像,單詞級特征來代表語言。他們還開發(fā)了更復(fù)雜的算法來計算相似性,比如交叉注意力的方法。

D.其他任務(wù)

在視覺-語言跨學(xué)科領(lǐng)域中,有許多我們無法詳細闡述的任務(wù)。因此,我們下面簡單中列出了一些重要的任務(wù),包括:

文本-圖像生成: 給定一段文本,生成包含該文本內(nèi)容的圖像。關(guān)于這部分更多細節(jié)請查看文章的IV-B部分。

視覺對話: 給定一個圖像,一段對話歷史,和一個關(guān)于圖像的問題,回答這個問題。

視覺推理: 與要求回答有關(guān)輸入圖像問題的VQA任務(wù)類似,視覺推理要求進一步理解圖像的能力。視覺推理任務(wù)通常包含足夠的關(guān)于圖像中的對象、問題結(jié)構(gòu)等的注釋。

視覺蘊涵: 給定一幅圖像和一篇文本,判斷該圖像在語義上是否包含輸入文本。

短語基礎(chǔ)和參考表達式理解: 這兩個任務(wù)需要一個模型來輸出與文本對應(yīng)的邊界框。對短語基礎(chǔ)而言,文本是一組短語; 對于引用表達理解而言,文本是一種表達。

在特定任務(wù)方法的時代,研究人員為不同的任務(wù)設(shè)計了特定的模型。盡管不同任務(wù)的模型差異很大,但它們遵循著相似的軌跡。它們都有三個階段,如圖1所示。這個時代的技術(shù)發(fā)展為VLP時代奠定了基礎(chǔ)。

3
視覺語言聯(lián)合表征

預(yù)訓(xùn)練和微調(diào)范式已被廣泛應(yīng)用于多個領(lǐng)域和各種下游任務(wù)。利用流行的大規(guī)模預(yù)訓(xùn)練最重要的原因在于大量可用的數(shù)據(jù)集以及GPU的快速發(fā)展。在單模態(tài)的語言/視覺預(yù)訓(xùn)練成功的推動下,研究人員開始探索語言和視覺的聯(lián)合表征,因此提出了跨模態(tài)VLP模型。

近年來VLP模型的興起主要是受到了語言模型中架構(gòu)設(shè)計和訓(xùn)練方法的啟發(fā)。其中最重要的突破之一是由Vaswani等人于2017開發(fā)的用于改善語言表征的Transformer。使用多個堆疊的注意層,Transformer可以以高并行性在全局范圍內(nèi)融合語言標記上的信息,這有利于高效的表征和大規(guī)模的訓(xùn)練。

Transformer的一個成功應(yīng)用是BERT,它利用Transformer編碼器并引入了雙向屏蔽技術(shù),允許每個語言標記雙向關(guān)注其他標記。如圖5所示,訓(xùn)練是通過用一個特殊的[MASK]標記(即掩模)替換一些文本標記來進行的,并使用其上下文信息來預(yù)測每個[MASK]。

該技術(shù)可以將語言表征訓(xùn)練看作是一個去噪過程,在去噪過程中,輸入的句子能夠?qū)W習(xí)去用一些有噪聲的標記進行自我重構(gòu)。這種去噪訓(xùn)練迫使存在[MASK]的標記利用所有不存在[MASK]的信息,從而產(chǎn)生語境化的表達。

基于Transformer語言模型開發(fā)的體系結(jié)構(gòu)設(shè)計和掩模訓(xùn)練技術(shù)是各種跨模態(tài)開發(fā)背后的主要原則,這些開發(fā)促進了最近VLP模型的激增。圖5(b)顯示了一個簡單的跨模態(tài)BERT。與語言訓(xùn)練類似,它對圖像進行標記化,并使用一定的技術(shù)將圖像與語言標記一起嵌入,這些在后面將詳細介紹。通常,會將標記化的視覺特征和文本特征一起輸入帶有掩模語言訓(xùn)練的Transformer編碼器,以學(xué)習(xí)聯(lián)合表征。

圖5 (a)原始的單模態(tài)BERT,其中隱藏了一些語言符號進行預(yù)測,以訓(xùn)練語言表示。(b)具有多模態(tài)的改進BERT,其中圖像和語言標記都被輸入到一個類似BERT的Transformer模型中。

在本節(jié)中,我們將介紹VLP模型的主要組成部分。如圖6所示,VLP模型中主要有三大部分,即視覺嵌入(VE)、文本嵌入(TE)和模態(tài)融合(MF)模塊。VE和TE通常分別用圖像和文本進行預(yù)訓(xùn)練,而MF則將VE和TE提取的特征,與圖像-文本的預(yù)訓(xùn)練進行融合。

VLP的目標是學(xué)習(xí)對象級別語言對齊,語義豐富的視覺表征。對象級別意味著學(xué)習(xí)后的表征是詳細的,并與對象對齊,而不是針對整個圖像。使用被檢測到物體的特征來表征圖像的研究成果是對象級的。語義豐富力求一種能夠泛化到廣泛語義概念的表征,并且需要從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)。

在海量數(shù)據(jù)集上進行預(yù)訓(xùn)練對于使用較小數(shù)據(jù)集的下游任務(wù)的性能提升至關(guān)重要,因為學(xué)習(xí)后的表征可以在下游任務(wù)中傳遞。VLP模型已被證明是非常有效的支持下游任務(wù)的方法。

圖6 VLP模型的體系結(jié)構(gòu)通常包括視覺嵌入(VE)、文本嵌入(TE)和模態(tài)融合(MF)。(a)為雙流模型,(b)為單流模型。在雙流模型中,模態(tài)融合是可選的,由語言和圖像編碼器之間的交互(通常是交叉注意)完成。在單流模型中,模態(tài)融合是在一個統(tǒng)一的編碼器(通常是多層變壓器)中完成的。

A 為何需要預(yù)訓(xùn)練

深度學(xué)習(xí)本質(zhì)上是一種統(tǒng)計數(shù)據(jù)驅(qū)動的方法,旨在從已見數(shù)據(jù)中學(xué)習(xí)映射函數(shù),以便使用學(xué)習(xí)到的映射函數(shù)對新的數(shù)據(jù)進行預(yù)測。請注意,最終目標是在新的數(shù)據(jù)上實現(xiàn)良好的性能。在統(tǒng)計學(xué)方面,這樣的目標被表示為最小化整個數(shù)據(jù)空間的預(yù)期損失,該損失遵循固定但未知的分布。但是,由于分布是未知的,這種預(yù)期的損失最小化并不容易處理。

在實踐中,必須從該分布中采樣數(shù)據(jù),并將經(jīng)驗損失定義為預(yù)期損失的代替。這聽起來可能很奇怪,但實際上是機器學(xué)習(xí)中常用的做法。例如,對于判斷輸入圖像是否有貓的圖像分類問題,最實用的方法是收集有貓和無貓的訓(xùn)練圖像,然后通過最小化在該訓(xùn)練集上定義的經(jīng)驗損失來訓(xùn)練分類器。然而,有貓和無貓圖像的分布確實是未知的。

統(tǒng)計學(xué)習(xí)理論表明,對于從足夠多未知分布中采樣的獨立同分布(iid)數(shù)據(jù),經(jīng)驗損失最小化結(jié)果收斂于預(yù)期損失最小化結(jié)果。也就是說,漸近地,可以使用iid樣本來逼近由未知分布定義的損失函數(shù)。然而,在實踐中,數(shù)據(jù)永遠不足以代表未知的分布,因此會導(dǎo)致許多缺陷,例如使用新訓(xùn)練集時性能低下、容易受到對抗性攻擊等。

預(yù)訓(xùn)練允許人們利用無限量無標簽(或帶有弱標簽)的數(shù)據(jù)來學(xué)習(xí)符合下游任務(wù)的特征。如此大規(guī)模的數(shù)據(jù)集有助于更好的定義預(yù)期損失近似值,以便從數(shù)據(jù)中學(xué)習(xí)更穩(wěn)健和真實的規(guī)律。由于預(yù)訓(xùn)練和微調(diào)階段之間的共享模型,在非常有限(例如,few?shot)的監(jiān)督下,微調(diào)后學(xué)習(xí)到的特征被用于下游任務(wù)時能夠有很高的精度。這使得預(yù)訓(xùn)練和微調(diào)范式成為解決(或減輕)數(shù)據(jù)短缺問題的有效方案。

B.  模態(tài)嵌入

文本和圖像本質(zhì)上是關(guān)于維度和結(jié)構(gòu)的不同級別的信息。為解決這種模態(tài)差異,通常使用模態(tài)嵌入,即從每個模態(tài)中獨立提取特征,然后將特征映射到共享特征空間中。如圖6所示,模態(tài)嵌入涉及視覺嵌入和文本嵌入,兩者都包含標記化過程和嵌入過程。視覺嵌入旨在遵循文本嵌入的原理,將圖像轉(zhuǎn)換為多個標記,其特征級別為文本標記。Bugliarello 等進行的消融研究證明數(shù)據(jù)集和超參數(shù)的訓(xùn)練是許多不同VLP模型性能改進的主要原因,并且還強調(diào)了模態(tài)嵌入的重要性。

1)文本標記化和嵌入

在文本嵌入之前,文本應(yīng)該被標記化??紤]到語言的離散化性質(zhì),早期的工作只是將每個單詞視為一個標記。一項開創(chuàng)性的研究是Word2Vec,它提出了一個連續(xù)的CBOW和一個skip?gram模型來訓(xùn)練詞向量表征。Word2Vec具有良好的計算效率,可以擴展到大型語料庫并產(chǎn)生高質(zhì)量的嵌入。

然而,盡管它的詞匯量高達一百萬左右,但這種方法由于稀有或未見過的單詞而存在詞匯量不足的問題,因此難以學(xué)習(xí)諸如“est”之類的單詞子單元。為解決這個問題,Sennrich等人提出了一種子單詞標記化的方法,該方法使用字節(jié)編碼(BPE),將單詞分割成更小的單元。子單詞標記化被廣泛用于包括BERT在內(nèi)的許多語言模型中。

大多數(shù)VLP模型采用來自預(yù)訓(xùn)練BERT的文本嵌入。由于BERT是使用Transformer編碼器進行掩碼學(xué)習(xí)訓(xùn)練的,因此它具有很強的雙向表征能力。

2)視覺標記化和嵌入

與離散并排列在單個維度中的語言標記不同,圖像來自高維空間并具有相互關(guān)聯(lián)的像素值。因此,圖像標記化通常比文本標記化更為復(fù)雜?;旧?,圖像標記化可以分為基于區(qū)域的、基于網(wǎng)格的和基于塊的,下面對它們分別介紹。

  • 網(wǎng)格特征被卷積特征提取器直接從大小相等的圖像網(wǎng)格中提取出來。例如,Huang等人于2021采用網(wǎng)格特征作為其VLP模型的圖像嵌入。網(wǎng)格特征的優(yōu)勢主要有兩點:第一,方便,因為它不需要預(yù)訓(xùn)練的目標檢測器。第二個是除了顯著目標之外,網(wǎng)格特征還包含可能對下游任務(wù)有用的背景。

  • 區(qū)域特征由預(yù)訓(xùn)練的目標檢測器提取。最近的VLP模型采用區(qū)域特征來學(xué)習(xí)對象級聯(lián)表征。特別是,基于BUTD的工作成果,大多數(shù)VLP模型采用在Visual Genome(VG)數(shù)據(jù)集上訓(xùn)練的Faster R?CNN作為區(qū)域特征嵌入。區(qū)域特征有三個基本組成部分,分別是邊界框、對象標簽和RoI特征(RoI池化后的特征向量)。邊界框通常在VLP中用作位置指示符,通過變換編碼到與RoI特征相同的維度空間并添加到RoI特征中。對象標簽在訓(xùn)練方法中被廣泛使用,例如Masked Region Classification,這些稍后將在III?D3中詳細闡述。區(qū)域特征的優(yōu)勢在于它們幫助VLP模型專注于圖像中有意義的區(qū)域。這些區(qū)域通常與下游任務(wù)密切相關(guān)。

  • 塊特征通常通過在均勻分割的圖像塊上的線性投影來提取。塊特征和網(wǎng)格特征之間的主要區(qū)別在于,網(wǎng)格特征是從卷積模型的特征圖中提取的,而塊特征直接利用線性投影。塊特征的概念首先由Vision Transformer (ViT) 引入,然后被VLP模型采用。使用塊特征的優(yōu)點是高效。例如,ViLT將預(yù)訓(xùn)練速度提高了10倍,是很有競爭力的結(jié)果。

圖像嵌入方法通常因不同的標記化方案而異。網(wǎng)格特征和區(qū)域特征通常來自預(yù)訓(xùn)練的卷積模型,而塊特征可以簡單地通過線性層嵌入。

C.  模態(tài)融合

VLP模型的核心是模態(tài)融合,它對模態(tài)內(nèi)和模態(tài)間融合進行建模,以產(chǎn)生圖像和文本的上下文聯(lián)合表征。MF模式可以分為雙流建模和單流建模。VLP的一般結(jié)構(gòu)如圖6所示。

1)雙流建模:雙流建模旨在將視覺和語言映射到相同的語義空間中。它是模態(tài)融合的開創(chuàng)性方法。如圖6(a)所示,它采用兩個獨立的編碼器分別學(xué)習(xí)視覺和語言的高級表征。雙流設(shè)計允許網(wǎng)絡(luò)深度和架構(gòu)適應(yīng)每種模式。除了每種模態(tài)內(nèi)的模態(tài)融合外,一些研究還明確設(shè)計了兩個編碼器之間的模態(tài)間交互,以實現(xiàn)不同編碼階段的模態(tài)融合。

2)單流建模:單流建模旨在學(xué)習(xí)一種聯(lián)合表征。圖像和文本標記被連接起來并輸入到Transformer中,如圖6(b)所示。大多數(shù)VLP模型都采用這種模態(tài)融合方案。單流建模執(zhí)行隱式的模內(nèi)和模間融合,不受雙流建模中融合階段的架構(gòu)設(shè)計的限制。

D .訓(xùn)練

為學(xué)習(xí)視覺和語言的聯(lián)合表征,視覺語言通常會在大數(shù)據(jù)集上使用多個自監(jiān)督學(xué)習(xí)損失函數(shù)對模型進行預(yù)訓(xùn)練。目前主要有三種預(yù)訓(xùn)練方法,分別是圖像文本匹配(Image Text Matching, ITM)、掩膜語言建模(mask Language Modeling, MLM)和掩膜視覺建模(mask Visual Modeling, MVM)。

1)圖文匹配:

ITM的目標是預(yù)測一對圖像和文本是否匹配。ITM可以表述為一個二元分類任務(wù)。之前的工作在特殊令牌[CLS]的輸出上應(yīng)用sigmoid函數(shù)來預(yù)測輸入的圖像和文本是否匹配。損失函數(shù)為:

其中  表示一個語言符號序列, 表示視覺內(nèi)容?;?以表示圖像是被匹配 或未被匹配 。

2) 掩膜語言建模:

Chen 等人于2020年利用MLM 激勵模型學(xué)習(xí)語言符號與視覺內(nèi)容之間的隱含關(guān)系。目標是根據(jù)已知的語言標記和可視內(nèi)容重構(gòu)掩膜語言標記。這個目標可以表述為:

其中表示沒有第個單詞的句子。請注意,盡管通常采用BPE進行語言分詞,但最小的掩碼單元是一個完整的單詞,而不是一個子單詞。這是因為由于信息泄露,可以很容易地從周圍的子詞中預(yù)測出子詞。

也有改進版本的MLM。例如,Sun等人于2019年提出了知識掩膜語言模型,該模型執(zhí)行短語級掩膜和實體級掩膜,將短語和實體級知識集成到語言表征中。對于實體級掩膜,它們將命名的實體視為一個整體。例如,J.K.羅琳(J. K. Rowling) 包含三個符號,是一個人名,應(yīng)該在實體級掩膜中一起被掩膜。短語級別掩膜將一組詞作為一個概念單位。它們掩膜了屬于一個短語的所有標記,并同時預(yù)測它們。

3) 掩膜視覺建模:

受MLM的啟發(fā),MVM被設(shè)計用來通過重構(gòu)被掩膜的視覺內(nèi)容來學(xué)習(xí)更符合實際的視覺表示。由于圖像的信息密度低于語言的信息密度,MVM比MLM具有更大的挑戰(zhàn)性。在重構(gòu)缺失的單詞時,需要對語言進行復(fù)雜的理解。

相反,缺失的圖像塊(patch)可以在不需要跨模態(tài)理解的情況下從鄰近的patch中恢復(fù)。為克服這一差距,大多數(shù)工作都是掩蓋信息密度相對較高的目標區(qū)域。其他工作如SOHO使用視覺字典(VD)來表征視覺領(lǐng)域更全面、更緊湊的語義,因此它們可以像MLM一樣應(yīng)用MVM。綜上所述,主要有四種MVM方案。

1) 掩膜區(qū)預(yù)測(MRP): MRP最小化掩膜區(qū)預(yù)測出的特征與由經(jīng)過訓(xùn)練的物體檢測器輸出之間的距離。

2) 掩膜區(qū)域分類(MRC): MRC需要一個模型來預(yù)測每個掩蔽區(qū)域的對象語義類別。

3) 帶KL-divergence的掩膜區(qū)域分類(MRC-KL): 由于MRC的目標標簽不準確,MRC-KL采用軟標簽作為監(jiān)督信號,這是物體探測器在SoftMax后的原始輸出。

4) 用可視化字典進行掩膜可視化建模(MVMVD): 與具有詞匯字典的語言模型類似,MVMVD需要一個可視化詞匯字典(VD)。MVMVD的目標是重構(gòu)被屏蔽的VD令牌。

有兩點值得注意。首先,為了鼓勵跨模態(tài)融合,一些工作,如UNITERVL,在訓(xùn)練期間每次只屏蔽一個模態(tài)的令牌,以鼓勵被屏蔽的令牌對另一個模態(tài)進行缺失信息的處理。其次,由于相鄰的圖像網(wǎng)格高度相關(guān),MVMVD傾向于映射到相同的VD令牌; 當執(zhí)行重構(gòu)時,模型可以直接復(fù)制周圍的令牌。

因此,所有映射到相同VD令牌的視覺嵌入向量在SOHO中一起被屏蔽。盡管有上述方法,但有效的視覺建模仍然是一個具有挑戰(zhàn)性的問題。一些VLP模型(如SOHO)的消融研究的結(jié)果表明,增加MVM任務(wù)只會對性能產(chǎn)生微小的額外改善。Cao等人于2020發(fā)現(xiàn),在下游任務(wù)中,VLP模型表現(xiàn)出關(guān)注文本信息而不是視覺信息的傾向。

圖7 VLP方法的總覽。研究成果按公布時間分類。我們還展示了每個作品來自的主要機構(gòu)的標識。

E.  預(yù)訓(xùn)練研究概況

本節(jié)在介紹了VLP模型的一般流程之后,總結(jié)了跨領(lǐng)域VLP的一些開創(chuàng)性工作。受NLP和CV預(yù)訓(xùn)練成功的啟發(fā),近年來VLP領(lǐng)域的研究大量涌現(xiàn),以尋求統(tǒng)一的跨模態(tài)表征。VLP研究成果的形勢如圖7所示。我們在這一節(jié)中詳細闡述了一些有代表性的研究。

單流模型: VideoBERT是學(xué)習(xí)視頻和語言聯(lián)合表征的一項開創(chuàng)性工作。其主要思想是將可視的和文本的標記輸入到構(gòu)建在BERT上的單流模型中。文本標記通過自動語音識別方法將視頻語音轉(zhuǎn)換為文本來提取,視覺標記通過使用卷積主干從視頻片段中提取特征來獲取。VideoBERT能夠執(zhí)行廣泛的下游分類和生成任務(wù),包括視頻說明和零樣本掩膜動/名詞預(yù)測。請注意,VideoBERT是使用烹飪視頻進行的預(yù)訓(xùn)練,其中的內(nèi)容是有教學(xué)意義且高質(zhì)量的。它假設(shè)口語與視覺內(nèi)容是一致的,這就限制了它只能應(yīng)用于某些視頻(例如教學(xué)型視頻)。另一個限制其泛化性的問題是其精心設(shè)計的字幕文本模板,例如模板:now let’s [MASK] the [MASK] to the [MASK], and then [MASK] the [MASK],這只適用于烹飪視頻。

Li等人提出了一個名為VisualBERT的簡易單流VLP模型。提取的視覺和文本標記被直接組合并輸入到Transformer中,從而在Transformer里可以隱式地執(zhí)行跨模態(tài)融合。與VisualBERT類似,一些并行研究,如Unicoder VL、VL- bert 和UNITER也采用了單流架構(gòu)。這些VLP研究在以下幾個方面是相似的:1)它們都利用目標檢測主干來計算圖像嵌入。2)它們都采用掩碼語言建模任務(wù)。3)均采用單流BERT架構(gòu)。但它們在預(yù)訓(xùn)練的方法和數(shù)據(jù)集上存在差異。

雙流模型: ViLBERT和LXMBERT是將BERT擴展到雙流VLP模型的開創(chuàng)性工作。它們在Conceptual Captions數(shù)據(jù)集上進行預(yù)訓(xùn)練,并利用預(yù)訓(xùn)練的Faster R-CNN模型來檢測區(qū)域作為視覺標記。ViLBERT用兩個并行流分別處理視覺和文本標記,它們可以在需要時通過跨注意層融合跨模態(tài)信息。換句話說,ViLBERT假設(shè)了視覺和語言的不同處理架構(gòu)。它的跨模態(tài)融合設(shè)計為兩個處理流程之間的稀疏和顯式融合。LXMBERT與ViLBERT的區(qū)別在于解耦模態(tài)內(nèi)和模態(tài)間的處理。更具體地說,視覺標記和文本標記在第一階段被分別編碼,然后輸入到跨模態(tài)編碼器以產(chǎn)生聯(lián)合表征。

其他融合方法: 從根本上說,單流建模和雙流建模在融合時間上有所不同,其中單流在早期融合不同的模態(tài),而雙流更喜歡在融合前提取每種模態(tài)的高級特征。SemVLP提出通過迭代訓(xùn)練來組合這兩種流行的建模架構(gòu)。這種方法利用了這兩種架構(gòu),并在低級和高級上執(zhí)行跨模態(tài)語義對齊。特別是,Transformer編碼器在兩種建模方法之間共享,在雙流編碼器中添加了一個額外的跨模態(tài)注意力模塊,這有助于語義對齊和減少參數(shù)。大多數(shù)VLP模型試圖將視覺和語言編碼為單獨的標記,這些標記通過模態(tài)融合顯式或隱式地相互作用。另一類VLP模型基于目標檢測模型將視覺標記附加到文本標記。B2T2提出在文本標記中融合檢測到的目標的特征,在此基礎(chǔ)上在預(yù)訓(xùn)練中執(zhí)行MLM  和ITM。在B2T2中,標記T可以表示為:

其中t是原始文本嵌入,是標記為的檢測到的對象的數(shù)量, 是第  個對象的邊界框的嵌入,表示從邊界框中提取的視覺特征。B2T2還分析了融合對象和文本標記的階段。結(jié)果表明了早期融合的有效性。

彌補模態(tài)差距的早期嘗試:為實現(xiàn)生成和理解任務(wù),Zhou等人提出了一種統(tǒng)一的視覺語言預(yù)訓(xùn)練方法。它引入了兩種掩碼方案,即雙向注意力掩碼和序列到序列掩碼,以分別增強理解和生成任務(wù)。值得注意的是,這種統(tǒng) 一的VLP方法僅在預(yù)訓(xùn)練期間采用MLM,并在圖像字幕和VQA方面取得了有競爭力的表現(xiàn)。12?in?1將多任務(wù)訓(xùn)練擴展到四個廣泛任務(wù),并在12個數(shù)據(jù)集上進行預(yù)訓(xùn)練。實驗結(jié)果表明,多任務(wù)訓(xùn)練可以持續(xù)提高下游任務(wù)的性能,并產(chǎn)生參數(shù)更少的更輕量級的模型。

VILLA基于UNITER的設(shè)計,在嵌入級別將對抗訓(xùn)練引入了視覺和文本標記。它通過在嵌入空間中添加擾動作為正則化來執(zhí)行對抗性訓(xùn)練,并產(chǎn)生了不錯的性能改進。

受ERNIE的知識掩膜方案的啟發(fā),結(jié)構(gòu)化知識首先被納入ERNIE?ViL的VLP模型中。為了通過構(gòu)建場景圖來開發(fā)更好的跨模態(tài)語義對齊,ERNIE?ViL提出了場景圖預(yù)測任務(wù)來對圖中的對象、屬性和關(guān)系進行建模,以學(xué)習(xí)對象級和屬性感知表示。將知識納入跨模態(tài)訓(xùn)練具有挑戰(zhàn)性,并且至今仍然是一個懸而未決的問題。

Grid & Patch features:雖然區(qū)域特征嵌入的流行促進了VLP模型的訓(xùn)練,但它也限制了VLP模型的可擴展性和泛化能力。經(jīng)分析,F(xiàn)aster R?CNN的區(qū)域特征的弱點如下所示:

  • 類別數(shù)量有限:視覺特征受到在具有預(yù)定義對象類別的、相對較小的數(shù)據(jù)集上進行訓(xùn)練的目標檢測模型的限制。例如,BUTD中廣泛采用的Faster R?CNN 模型是在VG上訓(xùn)練的,其中有固定的1594  個對象類和524個屬性。

  • 質(zhì)量低:由于Faster R?CNN 模型是在標簽良好的小型數(shù)據(jù)集上訓(xùn)練的,因此區(qū)域特征經(jīng)常受到低質(zhì)量的影響。

  • 缺乏上下文:區(qū)域特征在沒有任何背景信息的情況下提取屬于特定類別的RoI特征,導(dǎo)致忽略了這些區(qū)域特征之間的語義關(guān)系。實際上,這些語義關(guān)系很重要。

PixelBERT試圖打破這一限制,通過直接從像素特征中學(xué)習(xí)來充分利用視覺信息。為了降低計算成本和提高模型的魯棒性,他沒有將所有像素都用作視覺特征,而是在預(yù)訓(xùn)練期間隨機采樣100個像素。然而,實驗結(jié)果表明,隨機采樣僅略微提高了性能,在下游任務(wù)中的VQA分數(shù)低于0.5。

SOHO是另一項利用網(wǎng)格特征進行跨模態(tài)理解的開創(chuàng)性工作。為了學(xué)習(xí)視覺上下文的語義全面表示,SOHO提出了一個學(xué)習(xí)用于視覺標記化的VD。SOHO是通過首先從卷積網(wǎng)絡(luò)中獲取高級特征來學(xué)習(xí)VD的,然后根據(jù)特征相似性對這些特征進行分組,并饋入移動平均編碼器以動態(tài)更新VD。

由于視覺嵌入是可訓(xùn)練的,SOHO是一個端到端的預(yù)訓(xùn)練框架,可以直接從像素中學(xué)習(xí),無需邊界框。通過訓(xùn)練過程中的動態(tài)VD更新,VD中每個標記的序列號可以像語言標記一樣被視為一個標簽,從而可以很自然地執(zhí)行掩碼視覺建模。對于預(yù)訓(xùn)練任務(wù),SOHO提出了一種新穎的MVMVD方法(在III?D3中描述)來同時掩蓋圖像中同一標簽的所有視覺標記,以避免任何信息泄漏。

上述基于區(qū)域或網(wǎng)格的圖像嵌入計算量很大,提取的高級特征阻止了跨模態(tài)信息的早期融合。受ViT的啟發(fā),ViLT采用圖像塊的簡單線性投影作為視覺嵌入,將預(yù)訓(xùn)練速度加快了10倍,并且實驗結(jié)果具有競爭力。這意味著,相比于視覺嵌入,模態(tài)融合更可能是改進VLP模型表征的關(guān)鍵。

改進對齊表示:視覺語言對齊表示是VLP的基本目標。為了實現(xiàn)這一目標,一些研究提出可以在VLP中采用額外的對象級數(shù)據(jù)。例如,許多VLP方法采用了RoI區(qū)域特征和檢測模型。然而,作為重要組成部分的檢測到的對象標簽并未在VLP模型中被明確建模。為了利用這些附加信息,Oscar引入了對象標簽作為錨點,以幫助學(xué)習(xí)跨模態(tài)對齊的表征。這種學(xué)習(xí)過程在經(jīng)驗上是自然的,因為檢測到的對象標簽經(jīng)常出現(xiàn)在和圖像配對的文本中,這有助于對齊視覺和語言。

此外,使用對象標簽進行訓(xùn)練有助于學(xué)習(xí)對象的共現(xiàn)(例如,和對象單詞會共同出現(xiàn)的單詞)。因此,Oscar在下游理解和生成任務(wù)上產(chǎn)生了顯著的改進。然而,Oscar  的缺點也很明顯,它依賴于標記良好的圖像字幕數(shù)據(jù)集,因此難以擴大訓(xùn)練規(guī)模。

由于VLP模型受到不充分對齊的(圖像、字幕)對的限制,VIVO建議使用大量的(圖像、標簽)對來增加預(yù)訓(xùn)練的程度。VIVO采用Hungarian匹配損失進行掩碼標簽預(yù)測,這使得它可以進行視覺詞匯學(xué)習(xí),提高模型描述下游任務(wù)中的新對象的泛化能力。它在NoCaps基準測試中首次超過了人類的表現(xiàn)。更具體地說,它采用ResNeXt152?C4并合并了包括VG、COCO、Objects365和  OpenImagesV5的四個公共數(shù)據(jù)集用于大規(guī)模訓(xùn)練。  相比于VIVO和Oscar等VLP模型,VinVL有了顯著改進,并在NoCaps、圖像字幕和VQA排行榜上取得了最佳成績。

4
擴大模型和數(shù)據(jù)規(guī)模

盡管研究者已經(jīng)在視覺語言聯(lián)合表示方面取得了令人鼓舞的進展,但上述大多數(shù)研究主要集中在追求良好的跨模態(tài)對齊的對象級表示上。而且他們采取了一個門檻較高的假設(shè):假設(shè)圖像和文本對被很好地標記。這項假設(shè)將訓(xùn)練數(shù)據(jù)集限制為相對較小的擁有“黃金標簽”的數(shù)據(jù)集。例如,Conceptual Captions是廣泛用于VL預(yù)訓(xùn)練的最大公共數(shù)據(jù)集,它具有300萬個圖像?文本對。

為了使模型獲得更豐富的語義和更強的泛化能力,研究者非常需要更大的弱標記數(shù)據(jù)集,例如網(wǎng)絡(luò)爬蟲數(shù)據(jù)集。CLIP和DALL?E將大規(guī)模網(wǎng)絡(luò)爬取數(shù)據(jù)用于預(yù)訓(xùn)練的第一個成功實踐案例。受CLIP和DALL?E成功的啟發(fā),最近有幾項研究工作進一步構(gòu)建了基于更大數(shù)據(jù)集的更強大的模型。

本節(jié)旨在介紹使用大規(guī)模弱標簽數(shù)據(jù)集訓(xùn)練的模型。本節(jié)分為兩部分。第一部分包括利用大規(guī)模數(shù)據(jù)集進行視覺理解的工作,例如CLIP、ALIGN、SimVLM和Florence。第二部分包含基于諸如DALL?E、GODIVA、NUWA等大型數(shù)據(jù)集的視覺生成模型。

A.  視覺理解

CLIP中的核心思想是訓(xùn)練方法。CLIP不像其他VLP方法那樣通過訓(xùn)練去預(yù)測掩模的視覺或文本標記,而是學(xué)習(xí)識別成對的圖像和文本。CLIP的目標是:在給定一批數(shù)量為N的(圖像?文本)對時,CLIP應(yīng)能夠預(yù)測N × N個可能出現(xiàn)的對中哪些是匹配對(正樣本),哪些是非匹配對(負樣本)。經(jīng)過預(yù)訓(xùn)練后,CLIP可以通過使用類似于“a  photo  of”等短語加上類別名稱作為提示來告訴模型輸入圖像與哪些類別最相似,從而執(zhí)行零樣本圖像分類。與全監(jiān)督的基線相比,零樣本CLIP在27個數(shù)據(jù)集中的16個數(shù)據(jù)集上優(yōu)于基線。

與CLIP類似,ALIGN也采用了具有對比損失的雙編碼器模型執(zhí)行零樣本任務(wù)。它利用了一個更大的原始數(shù)據(jù)集,包含1.8B圖像?文本對。ALIGN在許多零樣本視覺任務(wù)上的表現(xiàn)優(yōu)于CLIP,這證明用更大的數(shù)據(jù)集訓(xùn)練會帶來更好的性能。

除了視覺任務(wù),ALIGN在圖像文本檢索任務(wù)上的表現(xiàn)也優(yōu)于之前的工作成果。SimVLM開發(fā)了一種新的VL預(yù)訓(xùn)練方法。它遵循一個簡單的前綴語言建模目標,以自回歸的方式預(yù)測下一個標記。它在多個VL任務(wù)上取得了有競爭力的結(jié)果,并具有文本引導(dǎo)的零樣本學(xué)習(xí)能力。與之前采用粗略(圖像級)表征和靜態(tài)(圖像)數(shù)據(jù)的工作不同,F(xiàn)lorence采用細粒度(對象級)表征并擴展到了動態(tài)(視頻)數(shù)據(jù)。對于對象級表示,研究者將適配器Dynamic  Head添加到了Florence中的圖像編碼器并使用額外的對象檢測數(shù)據(jù)集進行訓(xùn)練。通過對9億對的圖像?文本對的預(yù)訓(xùn)練,F(xiàn)lorence在44個具有代表性的基準中的大多數(shù)中取得了新的最先進的結(jié)果。

除了零樣本分類,CLIP還可以幫助檢測。例如,ViLD提出了一種通過CLIP蒸餾的零樣本檢測器。其他研究表明,CLIP 可以學(xué)習(xí)那些更像來自人腦中的神經(jīng)元的多模態(tài)特征,并且它還可以幫助完成VL任務(wù)。

B.  視覺生成

除了視覺理解,大規(guī)模弱標記的圖文配對數(shù)據(jù)也可以輔助文本到圖像的生成。Ramesh等人(2021)開發(fā)了一種名為DALL?E的圖像生成系統(tǒng)。DALL?E使用離散變分自動編碼器(dVAE)將圖像轉(zhuǎn)換為離散的視覺標記,以便將一個(文本、圖像)對視為單個數(shù)據(jù)流。

在訓(xùn)練期間,文本圖像流被送到僅為解碼器的Transformer中。在其中應(yīng)用注意力掩碼時,每個圖像標記都可以看到所有的文本標記。文本標記之間的注意力掩碼是標準因果掩碼。圖像到圖像的注意力使用行、列或卷積注意力掩碼。在推理時,給定文本標記,生成過程是像在GPT中一樣以自回歸方式預(yù)測圖像標記。DALL?E在四個方面展示了令人印象深刻的結(jié)果:創(chuàng)建動物和物體的擬人化版本、組合不相關(guān)的概念、渲染文本以及對現(xiàn)有圖像應(yīng)用轉(zhuǎn)換。

受DALL?E訓(xùn)練方法的啟發(fā),Wu  等人(2021a)提出了一種名為GODIVA的方法來從文本中生成視頻。與DALL?E類似,GODIVA對視頻的每一幀進行標記,并將文本和視覺標記順序連接為流來訓(xùn)練模型。DALL?E和GODIVA分別設(shè)計用于文本到圖像的生成和文本到視頻的生成,而Wu等人(2021b)提出了一個統(tǒng)一的視覺生成模型,該模型在文本到圖像、文本到視頻、視頻預(yù)測等8個下游任務(wù)上取得了最先進的結(jié)果。

他們提出了一個能夠編碼的3D  Transformer,它能夠?qū)λ腥N數(shù)據(jù)格式進行編碼,包括文本(1D)、圖像(2D)和視頻(3D)。為了優(yōu)化視頻的效果,他們還設(shè)計了一個3D  Nearby  Attention來沿空間和時間軸應(yīng)用注意力。

5
未來趨勢

在過去幾年中,我們見證了VLP模型如何逐漸使用大量弱標記和更多樣化的數(shù)據(jù)。未來,模型和數(shù)據(jù)的規(guī)模都將不斷擴大,從而實現(xiàn)更強的模態(tài)合作,甚至是統(tǒng)一表征。此外,結(jié)合知識可以進一步增強VLP模型,從而使其獲得更好的泛化能力。在本節(jié)中,我們將討論這些未來趨勢。

A.  走向模態(tài)合作

除了使用VL數(shù)據(jù)集改進跨模態(tài)任務(wù)外,模態(tài)合作技術(shù)正逐漸在預(yù)訓(xùn)練中被使用,從而提高單模態(tài)任務(wù)和多模態(tài)任務(wù)的性能。模態(tài)合作就是不同的模態(tài)互相幫助,以學(xué)習(xí)更好的表征。例如,用視覺數(shù)據(jù)改進語言任務(wù),用單模態(tài)數(shù)據(jù)改進跨模態(tài)任務(wù)。

  1. 利用視覺數(shù)據(jù)改進語言任務(wù)

研究者已經(jīng)嘗試過利用視覺信息改進語言學(xué)習(xí),并在廣泛的語言任務(wù)上進行了探索,其中包括機器翻譯、語義解析和語言基礎(chǔ)等任務(wù)。這些研究探索是為特定的語言任務(wù)量身定制的,并且這些研究成果之間可能存在模態(tài)差異。

Tan和Bansal(2020年)提出了一種帶有視覺輔助的語言表示的通用預(yù)訓(xùn)練模型,其中引入了“vokenization”模型,以將視覺語言對齊從圖像說明數(shù)據(jù)集外推到純語言語料庫。更具體地說,使用圖像文本匹配對“vokenization”模型進行訓(xùn)練,以構(gòu)建視覺圖像詞匯表,然后利用該詞匯表將僅語言數(shù)據(jù)集中的文本標記映射到檢索到的得分最高的圖像。實驗結(jié)果表明,它的性能相比自監(jiān)督語言模型有了額外的進步。

2. 使用單模態(tài)數(shù)據(jù)改進跨模態(tài)任務(wù)

為了解決數(shù)據(jù)短缺問題,一些VLP模型利用額外的單模態(tài)數(shù)據(jù)來提高表示能力。例如,在圖像?文本數(shù)據(jù)集中,文本通常很短,只帶有幾個標記,這限制了文本的表征能力。因此,研究者在VL?BERT中添加了額外的語言語料庫來改進跨模態(tài)任務(wù)中的語言部分。

B.  走向通用統(tǒng)一模態(tài)

由于Transformer架構(gòu),研究人員在單模態(tài)和多模態(tài)表征學(xué)習(xí)方面都取得了顯著進展。在前面的部分中,我們討論了多模態(tài)表征和模態(tài)合作,它們以不同的方式連接視覺和語言。目前,該領(lǐng)域內(nèi)的一個更大的目標是建立一個可以統(tǒng)一多種模態(tài)的通用表示模型。

在一項開創(chuàng)性的工作UNIMO中,一個統(tǒng)一的預(yù)訓(xùn)練模型被提出,它可以同時處理單模態(tài)和多模態(tài)的下游任務(wù),包括理解和生成。它使用了大量單模態(tài)和跨模態(tài)數(shù)據(jù)進行預(yù)訓(xùn)練,包括BookWiki(Zhu  et  al.,  2015)和OpenWebText(語言數(shù)據(jù))、OpenImages(Krasin  et  al.,  2017)和COCO (Lin  et  al.,  2014)(圖像數(shù)據(jù))、COCO(Lin  et  al.,  2014)、Visual  Genome(Krishna  et  al.,  2016) 、Conceptual  Captions(Sharma  et  al.,  2018)和SBU(Ordonez  et  al.,  2011)(圖文數(shù)據(jù))。

因此,UNIMO在執(zhí)行許多單模態(tài)和多模態(tài)下游任務(wù)時的性能得到了大幅改進。另一個有趣的研究成果是Gupta等人開發(fā)的通用視覺系統(tǒng),它可以用于一系列視覺和跨模態(tài)任務(wù)。

C.  VL+知識

模型在執(zhí)行VL任務(wù)時,會有許多任務(wù)需要依靠超出訓(xùn)練數(shù)據(jù)集的常識和事實信息才能夠完成。但是,大多數(shù)VLP模型沒有消耗額外知識的機制。

ERNIE提出了一種基于知識的多階段掩模策略。該方法沒有直接添加知識嵌入,而是將語言掩蔽在三個級別,即基礎(chǔ)級別、短語級別和實體級別。對于實體級屏蔽,模型會屏蔽整個實體而非子單詞。此類實體包括人員、位置、組織、產(chǎn)品等。還有一種將知識集成到VLP模型中的方法。

Shevchenko等人(2021)提出將知識嵌入直接注入視覺語言Transformer中。他們首先使用知識嵌入構(gòu)建知識庫(KB),然后將訓(xùn)練數(shù)據(jù)中的句子與知識嵌入進行匹配。在訓(xùn)練期間,他們使用輔助損失來促使已學(xué)習(xí)到的表征與知識嵌入保持一致。盡管已經(jīng)有一些研究工作試圖將知識整合到VLP模型中,但為了完成該目標,仍有許多挑戰(zhàn)需要解決,例如如何有效利用具有高噪音的大型維基數(shù)據(jù)以及如何以可解釋的方式從知識中學(xué)習(xí)。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
視覺-語言預(yù)訓(xùn)練入門指南
追求極致速度,極簡多模態(tài)預(yù)訓(xùn)練模型ViLT,推理速度比UNITER快60倍?。↖CML2021)
SimVLM:具有弱監(jiān)督的簡單視覺語言模型預(yù)訓(xùn)練
地表最強VLP模型!谷歌大腦和CMU提出極簡弱監(jiān)督模型
AGI之MFM:《多模態(tài)基礎(chǔ)模型:從專家到通用助手》翻譯與解讀之視覺理解、視覺生成
超越 GLIP! | RegionSpot: 識別一切區(qū)域,多模態(tài)融合的開放世界物體識別新方法
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服