極市導(dǎo)讀
本文重點(diǎn)討論了多模態(tài)大語(yǔ)言模型中的視覺編碼器的效果。通過(guò)深入分析,作者強(qiáng)調(diào)了淺層特征的重要性,這些特征捕捉了有助于 grounding 和定位任務(wù)的低級(jí)細(xì)節(jié)。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
本文重點(diǎn)討論了多模態(tài)大語(yǔ)言模型(Multi-modal Large Language Models,MLLMs
)中的視覺編碼器的效果?,F(xiàn)有的方法通常使用 CLIP
或其變體作為視覺分支,僅從深層中提取特征。然而,這些方法缺乏對(duì)MLLMs
中視覺編碼器的全面分析。
作者進(jìn)行了廣泛的研究,發(fā)現(xiàn) CLIP 的淺層特征在細(xì)粒度任務(wù)(如 grounding
和區(qū)域理解)方面具有特殊優(yōu)勢(shì)。令人驚訝的是,僅僅為視覺模型 DINO 配備一個(gè) MLP 層,它就在 MLLMs 內(nèi)部作為視覺分支表現(xiàn)出令人滿意的性能。
基于這些觀察,作者提出了一種名為 COMM
的簡(jiǎn)單而有效的特征融合策略,它通過(guò)多層次特征融合來(lái)增強(qiáng) MLLMs 的視覺能力。通過(guò)在各種基準(zhǔn)測(cè)試中對(duì) COMM 進(jìn)行的綜合實(shí)驗(yàn),包括圖像字幕生成、視覺問題回答、視覺 grounding 和物體幻覺等結(jié)果表明,與現(xiàn)有方法相比,COMM 表現(xiàn)出卓越的性能,突顯了其在 MLLMs 內(nèi)部增強(qiáng)的視覺能力。
本小節(jié)簡(jiǎn)單介紹下大語(yǔ)言模型(LLMs)的重要性和多模態(tài)擴(kuò)展的動(dòng)機(jī)。
LLMs 在語(yǔ)言理解和生成領(lǐng)域取得了顯著進(jìn)展,通過(guò)指令調(diào)整能夠處理各種任務(wù)。研究人員現(xiàn)在希望通過(guò)將視覺信號(hào)作為輸入來(lái)擴(kuò)展它們的能力,以生成與視覺內(nèi)容密切相關(guān)的文本輸出,從而在視覺-語(yǔ)言理解和生成領(lǐng)域開辟了令人興奮的可能性。
為了實(shí)現(xiàn)這一目標(biāo),一系列方法如大家所熟悉的 Flamingo
和 BLIP2
通過(guò)將 LLMs 與凍結(jié)的視覺編碼器對(duì)齊,以理解視覺輸入并執(zhí)行各種視覺-語(yǔ)言任務(wù)。然而,這些方法主要基于圖像級(jí)別的對(duì)齊,存在局部細(xì)粒度理解和嚴(yán)重幻覺問題。為此,諸如 GPT4ROI
、Kosmos-2
和 Shikra
進(jìn)一步被提出以增強(qiáng)LLMs的視覺能力,相信各位小伙伴最近已被 GPT4V 刷屏了。
然而,大多數(shù)現(xiàn)有多模態(tài)LLMs仍然使用 CLIP 或其變體作為視覺分支,但缺乏對(duì)這一選擇的全面分析。作者強(qiáng)調(diào)了 MLLMs 中的視覺編碼器和語(yǔ)言編碼器之間的不平衡性,以及視覺模型的不足之處,如上下文學(xué)習(xí)、跨域問題以及有限的零樣本能力。
因此,本文的目標(biāo)是對(duì) MLLMs 中的不同視覺編碼器進(jìn)行全面調(diào)查,并提出一種多層次特征融合策略(COMM)來(lái)增強(qiáng)其視覺能力。作者的研究發(fā)現(xiàn),不同層次的特征對(duì)局部和全局模式有不同的偏見,淺層特征對(duì)于細(xì)粒度任務(wù)有益,而深層特征對(duì)全局理解更有優(yōu)勢(shì)(符合常理~~~skr)。最令人驚訝的部分,DINOv2 作為僅帶有 MLP 層的視覺模型在 MLLMs 中表現(xiàn)出良好的性能,這可能歸因于 DINOv2 捕獲的細(xì)粒度定位信息。因此,本文最終選擇了 CLIP+DINO
的組合。
這一小節(jié)我們簡(jiǎn)要分析 MLLMs 中不同視覺編碼器的影響。
關(guān)于CLIP,作者觀察到不同層次的特征對(duì) grounding 和理解能力有不同的偏見。如上圖所示,淺層特征在 REF 和理解能力方面表現(xiàn)出相對(duì)較高的準(zhǔn)確性,而深層特征在理解能力方面表現(xiàn)出更高的準(zhǔn)確性。因此,與以前的方法不同,作者認(rèn)為將淺層和深層特征進(jìn)行整合對(duì)于提高M(jìn)LLMs的整體性能至關(guān)重要。通過(guò)平均整合淺層和深層特征,以及采用LLN-Layerscale策略,CLIP在通用的視覺-語(yǔ)言任務(wù)上實(shí)現(xiàn)了顯著的性能提升。
DINOv2 具有豐富的細(xì)粒度視覺信息,但與文本不天然對(duì)齊,因此作者使用非線性的多層感知器(MLP)模塊來(lái)將圖像特征與詞嵌入空間對(duì)齊。作者觀察到DINOv2的深層特征在 grounding 能力方面表現(xiàn)出優(yōu)勢(shì),而多層特征融合(Multi-Level Feature Merging,MFM)通過(guò)LLN-Layerscale-MLP模塊實(shí)現(xiàn)的更強(qiáng)連接對(duì)性能提升起到了明顯作用,在各種視覺-語(yǔ)言任務(wù)中取得了顯著的性能提升。
MAE 特征在 REF 準(zhǔn)確性上表現(xiàn)可接受,但在 POPE 和 REG 評(píng)估中性能下降明顯,因?yàn)镸AE特征缺乏足夠的語(yǔ)義信息以進(jìn)行全局或區(qū)域理解。DeiT的性能甚至不如MAE,猜測(cè)可能是因?yàn)槭艿奖O(jiān)督訓(xùn)練的影響太大,學(xué)到了難以與詞嵌入空間對(duì)齊的專門的視覺空間。
通過(guò)上述的動(dòng)機(jī)分析,我們知道 COMM 是一種整合了 CLIP 和 DINOv2,并采用多層特征融合策略的增強(qiáng) MLLMs 視覺能力的方法,下面小編簡(jiǎn)要介紹下。
COMM 方法被引入到一個(gè)基于最新的語(yǔ)言和視覺-語(yǔ)言基礎(chǔ)模型構(gòu)建的視覺-語(yǔ)言指令遵循模型中。這個(gè)模型根據(jù)輸入的指令,將視覺和語(yǔ)言作為輸入,生成遵循輸入指令的文本響應(yīng)。具體而言,本文采用 CLIP 和 DINOv2(基于ViT-Large)的視覺編碼器以及 Vicuna 作為語(yǔ)言解碼器。視覺編碼器通過(guò)下采樣將圖像表示為序列,然后將融合后的標(biāo)記特征通過(guò)線性層進(jìn)行投影,并與指令標(biāo)記一起作為輸入傳遞給語(yǔ)言解碼器。這個(gè)解碼器是一個(gè)通用接口,統(tǒng)一了各種視覺-語(yǔ)言任務(wù),將其視為文本生成任務(wù)。
在 COMM 中,視覺編碼器由 CLIP 和 DINOv2 組成。給定一個(gè)輸入圖像 ,從 CLIP 和 DINOv2 中提取特征。CLIP 提取了所有層的補(bǔ)丁標(biāo)記特征,而 DINOv2 提取了深層的特征。這兩個(gè)模型提取的特征被連接在一起,通過(guò)線性層進(jìn)行投影,并通過(guò)線性層歸一化模塊(Linear-layernorm)來(lái)對(duì)齊不同層次的特征空間。然后,多層特征融合策略(Layerscale)用于將多個(gè)層次的特征進(jìn)行融合,其中 和 是可學(xué)習(xí)的縮放參數(shù)。接下來(lái),采用 MLP 層來(lái)處理 DINOv2 的特征,并將其與 CLIP 的特征連接在一起。最后,通過(guò)線性層將融合后的視覺特征的維度匹配到文本特征的維度,融合后的視覺特征與文本標(biāo)記一起作為 LLMs 的輸入。
總的來(lái)說(shuō),COMM 的目標(biāo)是將 CLIP 和 DINOv2 的視覺信息融合,以提高 MLLMs 在各種視覺-語(yǔ)言任務(wù)中的性能。這種融合策略允許利用 CLIP 的全局視覺信息和 DINOv2 的細(xì)粒度定位信息,從而實(shí)現(xiàn)更強(qiáng)大的視覺能力。
COMM 的訓(xùn)練分為兩個(gè)階段:
更多實(shí)驗(yàn)細(xì)節(jié)請(qǐng)查看原文。
本研究對(duì)于多模態(tài)大語(yǔ)言模型(MLLMs)中不同視覺模型的有效性進(jìn)行了全面探究。通過(guò)深入分析,作者強(qiáng)調(diào)了淺層特征的重要性,這些特征捕捉了有助于 grounding 和定位任務(wù)的低級(jí)細(xì)節(jié)。此外,文中發(fā)現(xiàn)了僅包含圖像信息的 DINOv2 模型的潛力,它利用細(xì)粒度的像素級(jí)信息,當(dāng)與 MLP 層進(jìn)行對(duì)齊時(shí),可以增強(qiáng) MLLMs 在細(xì)粒度感知方面的表現(xiàn)。受到這些分析結(jié)果的啟發(fā),作者最后引入了一種融合策略,將 CLIP 和 DINOv2 獲取的視覺特征相結(jié)合,從而進(jìn)一步增強(qiáng)了 MLLMs 的視覺能力和性能。
聯(lián)系客服