底層視覺干貨,即可獲取
https://arxiv.org/abs/2312.09158
https://glee-vision.github.io
AIWalker后臺(tái)回復(fù)【GLEE】即可下載原文與譯文。
在這項(xiàng)工作中,我們提出了GLEE:一個(gè)對(duì)象級(jí)的基礎(chǔ)模型,用于定位和識(shí)別圖像和視頻中的對(duì)象。
具體來說,我們采用圖像編碼器,文本編碼器和視覺解碼器來處理多模態(tài)輸入,從而能夠同時(shí)解決各種以對(duì)象為中心的下游任務(wù),同時(shí)保持最先進(jìn)的性能。通過對(duì)來自不同基準(zhǔn)的500多萬張圖像進(jìn)行廣泛的訓(xùn)練,GLEE表現(xiàn)出顯著的多功能性和改進(jìn)的泛化性能,有效地處理下游任務(wù),而不需要特定于任務(wù)的適應(yīng)。通過集成大量的自動(dòng)標(biāo)注數(shù)據(jù),我們進(jìn)一步增強(qiáng)了其零炮概化能力。此外,GLEE能夠被集成到大型語(yǔ)言模型中,作為基礎(chǔ)模型為多模態(tài)任務(wù)提供通用的對(duì)象級(jí)信息。我們希望,我們的方法的可靠性和普遍性將標(biāo)志著一個(gè)重要的一步,有效的視覺基礎(chǔ)模型的AGI系統(tǒng)的發(fā)展。模型和代碼將在/上發(fā)布。
如圖所示,所提GLEE包括一個(gè)圖像編碼器,一個(gè)文本編碼器,一個(gè)視覺解碼器,和一個(gè)對(duì)象解碼器。文本編碼器處理與任務(wù)相關(guān)的任意描述,包括對(duì)象類別、任何形式的名稱、關(guān)于對(duì)象的標(biāo)題和引用表達(dá)式。視覺識(shí)別器在交互式分割期間將諸如點(diǎn)、邊界框或涂鴉的用戶輸入編碼成目標(biāo)對(duì)象的對(duì)應(yīng)視覺表示。然后,它們被集成到一個(gè)檢測(cè)器中,用于根據(jù)文本和視覺輸入從圖像中提取對(duì)象。
關(guān)于方案的詳細(xì)介紹建議感興趣的同學(xué)查看原文。AIWalker后臺(tái)回復(fù)【GLEE】即可下載原文與譯文,快快學(xué)習(xí)呀。
如上表所示:我們的模型在COCO和LVIS基準(zhǔn)上都優(yōu)于所有通才模型。即使與其他最先進(jìn)的spec-cialist方法相比,我們的模型仍然具有很強(qiáng)的競(jìng)爭(zhēng)力。這表明,GLEE同時(shí)掌握普遍和一般的對(duì)象表示,同時(shí)保持先進(jìn)的能力, 這種特性對(duì)于適應(yīng)需要精確目標(biāo)定位的廣泛下游任務(wù)至關(guān)重要。對(duì)于REC和RES任務(wù),我們?cè)赗ef-COCO [120],RefCOCO [120]和RefCOCOg [72]上評(píng)估了我們的模型,如表1所示,GLEE實(shí)現(xiàn)了與SOTA專業(yè)方法PolyFormer [62]相當(dāng)?shù)慕Y(jié)果,展示了強(qiáng)大的理解文本描述的能力,并展示了適應(yīng)更廣泛的多模態(tài)下游任務(wù)的潛力。在開放世界實(shí)例分割任務(wù)中,我們將“對(duì)象”視為類別名稱,指示模型以類不可知的方式識(shí)別圖像中所有可能的實(shí)例。GLEE比之前的ODISE [107]高出8.9分,證明了識(shí)別開放世界場(chǎng)景中可能存在的所有合理實(shí)例的能力。GLEE模型作為對(duì)象級(jí)視覺基礎(chǔ)模型的通用性和有效性,直接適用于各種以對(duì)象為中心的任務(wù),同時(shí)確保最先進(jìn)的性能,而不需要微調(diào)。
如上表所示:GLEE超過先前最佳方法OVTrack 36.0%,在BURST中幾乎是最佳基線性能的三倍,在LV-VIS中超過OV 2Seg43.6%。這種出色的性能有力地驗(yàn)證了GLEE在處理一系列基準(zhǔn)測(cè)試和任務(wù)的對(duì)象級(jí)任務(wù)時(shí)的卓越泛化和zero-shot能力
數(shù)據(jù)規(guī)模 使用10%、20%、50%、100%的訓(xùn)練數(shù)據(jù)訓(xùn)練GLEE-Pro,以評(píng)估zero-shot轉(zhuǎn)移任務(wù)的性能,包括TAO、BURST、OVIS和YTVIS。增加訓(xùn)練數(shù)據(jù)集的大小可增強(qiáng)不同下游任務(wù)的零觸發(fā)性能。
用作基礎(chǔ)模型 我們用一個(gè)凍結(jié)的、預(yù)訓(xùn)練的GLEE-Plus代替麗莎視覺中樞,并將來自GLEE的對(duì)象查詢饋送到LLAVA中,并去除LISA的解碼器。我們直接將輸出的SEG令牌與GLEE特征映射進(jìn)行點(diǎn)積來生成掩碼。經(jīng)過同樣數(shù)量的訓(xùn)練,改進(jìn)后的LISA-GLEE獲得了與原始版本相當(dāng)?shù)慕Y(jié)果,證明了GLEE表示的多功能性及其在服務(wù)于其他模型中的有效性。
對(duì)于圖像級(jí)交互式分割,GLEE支持將點(diǎn)、框或涂鴉作為視覺提示發(fā)送到模型,從而實(shí)現(xiàn)指定對(duì)象的直接分割。在視頻對(duì)象分割的情況下,使用來自第一幀的掩蔽特征作為提示引用特征允許在視頻的后續(xù)幀中分割對(duì)應(yīng)的對(duì)象。
我們介紹了一個(gè)先進(jìn)的對(duì)象級(jí)基礎(chǔ)模型GLEE,旨在直接適用于廣泛的對(duì)象級(jí)圖像和視頻任務(wù)。GLEE采用統(tǒng)一的學(xué)習(xí)范式,從不同監(jiān)督級(jí)別的不同數(shù)據(jù)源中學(xué)習(xí);GLEE在許多對(duì)象級(jí)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能,并在zero-shot泛化到新數(shù)據(jù)和任務(wù)方面表現(xiàn)出色,顯示出其卓越的通用性和泛化能力。此外,GLEE提供了一般的視覺對(duì)象級(jí)信息,這是目前在現(xiàn)代LLM中缺失的,為以對(duì)象為中心的mLLM奠定了堅(jiān)實(shí)的基礎(chǔ)。
論文/代碼下載
聯(lián)系客服