詳細(xì)信息如下:
摘要
數(shù)據(jù)增強(qiáng)是提高深度學(xué)習(xí)中數(shù)據(jù)效率的必要條件。對于視覺語言預(yù)訓(xùn)練,數(shù)據(jù)僅在以前的作品中針對圖像或文本進(jìn)行增強(qiáng)。在本文中,作者提出了MixGen:一種用于視覺語言表示學(xué)習(xí)的聯(lián)合數(shù)據(jù)增強(qiáng),以進(jìn)一步提高數(shù)據(jù)效率。它通過插入圖像和連接文本來生成具有語義關(guān)系的新圖像-文本對。它很簡單,可以即插即用到現(xiàn)有的pipeline中。
作者在四種架構(gòu)上評估 MixGen,包括 CLIP、ViLT、ALBEF 和 TCL,跨越五個(gè)下游視覺語言任務(wù),以展示其多功能性和有效性。例如,在 ALBEF 預(yù)訓(xùn)練中添加 MixGen 會導(dǎo)致下游任務(wù)的絕對性能提升:圖像文本檢索(COCO 微調(diào) +6.2% 和 Flicker30K Zero-shot +5.3%),視覺Grounding(+0.9% RefCOCO+)、視覺推理(在 NLVR2 上 +0.9%)、視覺問答(在 VQA2.0 上 +0.3%)和視覺entailment(在 SNLI-VE 上 +0.4%)。
Motivation
近年來,視覺語言表示學(xué)習(xí)研究出現(xiàn)了爆炸式增長。在聯(lián)合模態(tài)學(xué)習(xí)中,模型跨模態(tài)提取豐富的信息以學(xué)習(xí)更好的潛在表示。然而,這些模型通常使用數(shù)千個(gè) GPU 在大量圖像-文本對上進(jìn)行訓(xùn)練。
例如,CLIP僅使用zero-shot就能達(dá)到 ResNet-50 在 ImageNet 上的準(zhǔn)確度,但它在 256 個(gè) V100 GPU 上使用 400M 圖像-文本對訓(xùn)練了 12 天。此外,這些大規(guī)模數(shù)據(jù)集中的大多數(shù)都不能公開訪問。即使它們可用,對現(xiàn)有方法的復(fù)制和進(jìn)一步改進(jìn)對于計(jì)算資源有限的研究人員來說也是具有挑戰(zhàn)性的。
數(shù)據(jù)增強(qiáng)廣泛用于深度學(xué)習(xí),以提高數(shù)據(jù)效率并在計(jì)算機(jī)視覺 (CV)和自然語言處理 (NLP)的模型訓(xùn)練期間提供明確的正則化。然而,將現(xiàn)有的數(shù)據(jù)增強(qiáng)技術(shù)應(yīng)用于視覺語言學(xué)習(xí)并不簡單。在圖像-文本對中,圖像和文本都包含相互匹配的豐富信息。
直觀地說,希望它們的語義在數(shù)據(jù)增強(qiáng)后仍然匹配。例如,考慮一個(gè)帶有成對句子“一只白狗在綠色草坪的右角玩?!钡膱D像。對該圖像應(yīng)用裁剪、顏色更改和翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方法可能需要同時(shí)更改其配對句子中的顏色和位置詞。
為了保留語義關(guān)系,以前的工作對視覺或文本模態(tài)進(jìn)行了溫和的數(shù)據(jù)增強(qiáng)。ViLT和后續(xù)作品采用 RandAugment用于沒有顏色反轉(zhuǎn)的圖像增強(qiáng)。CLIP和 ALIGN僅使用隨機(jī)調(diào)整大小的裁剪,沒有其他圖像增強(qiáng)。在語言方面,大多數(shù)文獻(xiàn)只是將文本數(shù)據(jù)增強(qiáng)留給掩蔽語言建模來處理。也有使用協(xié)同增強(qiáng)的工作,但僅針對特定的下游任務(wù)設(shè)計(jì),而不是通用的視覺語言預(yù)訓(xùn)練。
在這項(xiàng)工作中,作者提出了一種用于預(yù)訓(xùn)練的多模態(tài)聯(lián)合數(shù)據(jù)增強(qiáng)方法:混合生成(MixGen)。如上圖所示,MixGen 通過線性插值圖像并連接來自兩個(gè)現(xiàn)有圖像-文本對的文本序列來生成新的訓(xùn)練樣本。
可以看到,大多數(shù)對象和場景布局都保留在混合圖像中,而文本信息則完全保留。在大多數(shù)情況下,新生成的圖像-文本對內(nèi)的語義關(guān)系是匹配的。因此,可以使用增強(qiáng)數(shù)據(jù)來改進(jìn)模型訓(xùn)練。
盡管它很簡單,但在強(qiáng)baseline(例如 ALBEF)之上使用 MixGen 始終可以提高五個(gè)下游視覺語言任務(wù)的最先進(jìn)性能:圖像文本檢索(COCO 微調(diào) +6.2% 和 Flicker30K Zero-Shot +5.3%)、視覺Grounding(RefCOCO+ 上 +0.9%)、視覺推理(NLVR2 上 +0.9%)、視覺問答(VQA2.0 上 +0.3%)和視覺entailment(+0.4% 上SNLI-VE)。
MixGen 還提高了數(shù)據(jù)效率,例如,在 1M/2M/3M 樣本上進(jìn)行預(yù)訓(xùn)練時(shí),使用 MixGen 的 ALBEF 的性能分別與在 2M/3M/4M 樣本上預(yù)訓(xùn)練的 ALBEF 相匹配。此外,作者進(jìn)行了廣泛的消融研究,以了解 MixGen 中各種設(shè)計(jì)選擇的影響。最后,只需幾行代碼,MixGen 就可以集成到大多數(shù)方法中。
在 COCO 上的微調(diào)圖像文本檢索方面,MixGen 對四種流行且多樣的架構(gòu)帶來了絕對的改進(jìn):ViLT (+17.2%)、CLIP (+4.1%)、ALBEF (+7.0%) 和 TCL (+3.2%)。
方法
作者提出了多模態(tài)聯(lián)合數(shù)據(jù)增強(qiáng)技術(shù):混合生成(MixGen)。假設(shè)有一個(gè)包含 N 個(gè)圖像-文本對的數(shù)據(jù)集,其中圖像和文本分別用下標(biāo)表示為 I 和 T。給定兩個(gè)圖像-文本對和,其中。一個(gè)新的訓(xùn)練樣本通過以下方法得到:其中 λ 是介于 0 和 1 之間的超參數(shù),表示兩個(gè)圖像和的原始像素之間的線性插值;concat 運(yùn)算符直接連接兩個(gè)文本序列 和以最好地保留原始信息。這樣,新生成的圖文對內(nèi)的語義關(guān)系在大多數(shù)場景下仍然成立,如上圖所示。這種圖文樣本的隨機(jī)組合也增加了模型訓(xùn)練的多樣性,這導(dǎo)致提供稀有的概念。給定 B 個(gè)隨機(jī)采樣的圖像-文本對的 mini-batch,MixGen 將前 M 個(gè)訓(xùn)練樣本替換為新的生成樣本。因此,mini-batch大小、總訓(xùn)練迭代次數(shù)和總訓(xùn)練pipeline保持不變。默認(rèn)情況下,作者在算法中設(shè)置和。這種即插即用的技術(shù)可以很容易地融入大多數(shù)視覺語言表示學(xué)習(xí)方法和任務(wù)中:只需要幾行代碼具有最小計(jì)算開銷的代碼。3.1. MixGen variants
MixGen 的形式非常簡單。但是,根據(jù)圖像和文本增強(qiáng)的執(zhí)行方式,可能會有多種變體。從理論上講,還可以對混合之外的圖像使用其他增強(qiáng),以及連接之外的其他文本增強(qiáng),但是設(shè)計(jì)空間將是棘手的。因此,作者專注于對圖像使用混合,對文本使用連接,并選擇 5 個(gè)最直接的 MixGen 變體來支持本文最終的設(shè)計(jì)選擇。由于默認(rèn)的 MixGen 采用固定的 λ,作者引入了具有 λ ~ Beta(0.1, 0.1) 的變體 (a),遵循從 Beta 分布中采樣 λ 的原始 mixup 。為了展示執(zhí)行聯(lián)合圖像文本增強(qiáng)的好處,作者提出了變體 (b) 和 (c)。具體來說,變體(b)混合兩個(gè)圖像并統(tǒng)一選擇一個(gè)文本序列,而變體(c)連接兩個(gè)文本序列并統(tǒng)一選擇一個(gè)圖像。最后,作者研究是否應(yīng)該使用token子集,而不是連接來自兩個(gè)文本序列的所有token。變體 (d) 基于與圖像混合相似的 λ 按比例從兩個(gè)文本序列中獲取token,然后連接。另一個(gè)變體 (e) 首先連接所有token,但隨機(jī)保留其中一半以生成新的文本序列。上表中可以看到這 5 個(gè)變體的更詳細(xì)定義。作者還對它們進(jìn)行了廣泛的消融研究。從下表中可以看出,默認(rèn) MixGen 實(shí)現(xiàn)了整體最佳性能,并且在四種不同的視覺語言下游任務(wù)中始終優(yōu)于其他變體。3.2. Input-level and embedding-level MixGen
另一個(gè)設(shè)計(jì)視角是在哪里應(yīng)用數(shù)據(jù)增強(qiáng)。上面的公式直接在原始輸入上執(zhí)行,例如圖像和文本序列。或者,可以將 MixGen 的思想應(yīng)用于嵌入級別。具體來說,可以對從圖像編碼器中提取的圖像特征進(jìn)行插值,而不是對原始圖像像素進(jìn)行插值。類似地,可以連接從文本編碼器中提取的兩個(gè)序列特征,而不是連接兩個(gè)文本序列。將關(guān)于嵌入的訓(xùn)練對表示為和,新生成的嵌入形式的訓(xùn)練對為:將在原始輸入上執(zhí)行的 MixGen 稱為輸入級別 MixGen,在嵌入級別執(zhí)行的稱為嵌入級別 MixGen。正如下表中所示,輸入級 MixGen 始終比嵌入級 MixGen 表現(xiàn)更好。此外,輸入級 MixGen 具有實(shí)現(xiàn)簡單的優(yōu)點(diǎn),因?yàn)椴恍枰薷木W(wǎng)絡(luò)架構(gòu),也不需要更改模型的forward。
實(shí)驗(yàn)
對于上表中的微調(diào)結(jié)果,可以看到 MixGen 在兩個(gè)數(shù)據(jù)集上始終優(yōu)于 ALBEF baseline。在 3M 設(shè)置下,簡單地添加 MixGen 而不做任何修改會導(dǎo)致 COCO 的 RSUM 分?jǐn)?shù)提高 6.2%,F(xiàn)licker30K 的 RSUM 分?jǐn)?shù)提高 1.4%。對于上表中的zero-shot結(jié)果,可以觀察到類似的結(jié)論。在3M 設(shè)置下,MixGen 導(dǎo)致 Flicker30K 上的 RSUM 得分提高了 5.3%。此外,作者展示了 MixGen 與其他視覺語言預(yù)訓(xùn)練方法的兼容性,即 CLIP、ViLT 和 TCL。鑒于 ViLT 訓(xùn)練非常昂貴(例如,使用 64 個(gè) V100 GPU 需要 3 天),作者在本實(shí)驗(yàn)的預(yù)訓(xùn)練期間僅使用三個(gè)數(shù)據(jù)集(COCO、VG 和 SBU)。如上表所示,在這些強(qiáng)大的baseline之上簡單地添加 MixGen 可以持續(xù)提高最先進(jìn)的性能。在 COCO 上的微調(diào)圖像文本檢索方面,MixGen 顯示出顯著的準(zhǔn)確度提升(絕對):ViLT (+17.2%)、CLIP (+4.1%)、ALBEF (+7.0%) 和 TCL (+3.2%)。這顯示了 MixGen 在預(yù)訓(xùn)練中作為圖像文本數(shù)據(jù)增強(qiáng)的多功能性。最后,作者研究了 MixGen 可以實(shí)現(xiàn)多少數(shù)據(jù)效率。作者將用于預(yù)訓(xùn)練的圖像數(shù)量從 3M 減少到 2M、1M 和 200K。對于 2M,作者使用三個(gè)數(shù)據(jù)集加上來自 CC 數(shù)據(jù)集的隨機(jī)子集。對于 200K,作者只使用兩個(gè)數(shù)據(jù)集(COCO 和 VG)。上圖中可以看到圖文檢索的性能。首先注意到添加 MixGen 總是比沒有它好。尤其是低數(shù)據(jù)制度的改善更為顯著。其次,在 1M、2M 和 3M 樣本上訓(xùn)練時(shí)使用MixGen 的 ALBEF 的性能分別與在 2M、3M 和 4M 樣本上訓(xùn)練時(shí)的baseline ALBEF 相匹配。這再次表明了 MixGen 的數(shù)據(jù)效率。上表報(bào)告了不同視覺語言預(yù)訓(xùn)練baseline在下游 VQA、VR 和 VE 任務(wù)上的性能比較。與圖像-文本檢索任務(wù)類似,MixGen 不斷提升這三個(gè)任務(wù)的性能。在 3M 設(shè)置下,使用 MixGen 的 ALBEF 在 VQA test-std 上絕對優(yōu)于其相應(yīng)的baseline 0.28%,在 NLVR2 test-P 上優(yōu)于 0.89%,在 SNLI-VE 測試上優(yōu)于 0.36%。上表報(bào)告了 RefCOCO+ 數(shù)據(jù)集上視覺grounding的性能。在上圖中,作者展示了 MSCOCO 上文本到圖像檢索的可視化。具體來說,給定一個(gè)文本查詢,希望在使用和不使用 MixGen 的 ALBEF 之間比較所有檢索到的圖像中檢索到的真實(shí)圖像的排名。可以看到,MixGen 通常能夠在 top-3 檢索中定位匹配圖像,性能明顯優(yōu)于baseline ALBEF。在上圖中,作者展示了 Grad-CAM 可視化,以幫助理解為什么 MixGen 是有益的。對于 RefCOCO+ 數(shù)據(jù)集的視覺grounding任務(wù),可以看到使用 MixGen 訓(xùn)練的模型可以根據(jù)文本查詢更精確地定位圖像區(qū)域。在這項(xiàng)工作中,作者提出了一種新的視覺語言聯(lián)合數(shù)據(jù)增強(qiáng)方法,稱為 MixGen。在四個(gè)最近的最先進(jìn)模型上添加 MixGen 可以在五個(gè)不同的下游任務(wù)中實(shí)現(xiàn)持續(xù)改進(jìn)。強(qiáng)有力的實(shí)證結(jié)果表明,MixGen 不僅使這些模型學(xué)習(xí)到更好的多模態(tài)潛在表示,而且還提高了它們的數(shù)據(jù)效率。參考資料
[1]https://arxiv.org/abs/2206.08358研究領(lǐng)域:FightingCV公眾號運(yùn)營者,研究方向?yàn)槎嗄B(tài)內(nèi)容理解,專注于解決視覺模態(tài)和語言模態(tài)相結(jié)合的任務(wù),促進(jìn)Vision-Language模型的實(shí)地應(yīng)用。