97精品久久天干天天蜜,噜噜色综合噜噜色噜噜色

通用檢測(cè)大模型 | 華科白翔團(tuán)隊(duì)提出以對(duì)象為中心的基礎(chǔ)模型GLEE

doctorwangfovn >《待分類》

2023.12.18 山東

關(guān)注

底層視覺干貨，即可獲取

https://arxiv.org/abs/2312.09158
https://glee-vision.github.io
AIWalker后臺(tái)回復(fù)【GLEE】即可下載原文與譯文。

在這項(xiàng)工作中，我們提出了GLEE：一個(gè)對(duì)象級(jí)的基礎(chǔ)模型，用于定位和識(shí)別圖像和視頻中的對(duì)象。

通過一個(gè)統(tǒng)一的框架，GLEE可以在開放世界場(chǎng)景中完成任意物體的檢測(cè)、分割、跟蹤、接地和識(shí)別，以完成各種物體感知任務(wù)。
采用內(nèi)聚學(xué)習(xí)策略，GLEE從不同監(jiān)督級(jí)別的不同數(shù)據(jù)源中獲取知識(shí)，以形成通用對(duì)象表示，擅長(zhǎng)零次遷移到新數(shù)據(jù)和任務(wù)。

具體來說，我們采用圖像編碼器，文本編碼器和視覺解碼器來處理多模態(tài)輸入，從而能夠同時(shí)解決各種以對(duì)象為中心的下游任務(wù)，同時(shí)保持最先進(jìn)的性能。通過對(duì)來自不同基準(zhǔn)的500多萬張圖像進(jìn)行廣泛的訓(xùn)練，GLEE表現(xiàn)出顯著的多功能性和改進(jìn)的泛化性能，有效地處理下游任務(wù)，而不需要特定于任務(wù)的適應(yīng)。通過集成大量的自動(dòng)標(biāo)注數(shù)據(jù)，我們進(jìn)一步增強(qiáng)了其零炮概化能力。此外，GLEE能夠被集成到大型語(yǔ)言模型中，作為基礎(chǔ)模型為多模態(tài)任務(wù)提供通用的對(duì)象級(jí)信息。我們希望，我們的方法的可靠性和普遍性將標(biāo)志著一個(gè)重要的一步，有效的視覺基礎(chǔ)模型的AGI系統(tǒng)的發(fā)展。模型和代碼將在/上發(fā)布。

本文亮點(diǎn)

我們提出了GLEE：一個(gè)通用的以對(duì)象為中心的基礎(chǔ)模型的圖像和視頻， GLEE能夠同時(shí)處理各種以對(duì)象為中心的任務(wù)，同時(shí)保持最先進(jìn)的性能。
我們開發(fā)了一個(gè)多粒度的聯(lián)合監(jiān)督框架和一個(gè)可擴(kuò)展的訓(xùn)練范例。GLEE的統(tǒng)一方法支持多源數(shù)據(jù)，并能夠?qū)碜圆煌O(jiān)督級(jí)別的各種基準(zhǔn)的500多萬張圖像進(jìn)行聯(lián)合訓(xùn)練。這大大方便了額外的手動(dòng)或自動(dòng)注釋數(shù)據(jù)的合并，并簡(jiǎn)化了數(shù)據(jù)集的縮放。
GLEE在對(duì)象級(jí)圖像和視頻任務(wù)的范圍內(nèi)展示了卓越的通用性和強(qiáng)大的zero-shot可傳輸性。此外，GLEE可以提供現(xiàn)代LLM目前缺乏的可視化對(duì)象級(jí)信息，從而作為增強(qiáng)其他架構(gòu)或模型的基礎(chǔ)組件。

本文方案

如圖所示，所提GLEE包括一個(gè)圖像編碼器，一個(gè)文本編碼器，一個(gè)視覺解碼器，和一個(gè)對(duì)象解碼器。文本編碼器處理與任務(wù)相關(guān)的任意描述，包括對(duì)象類別、任何形式的名稱、關(guān)于對(duì)象的標(biāo)題和引用表達(dá)式。視覺識(shí)別器在交互式分割期間將諸如點(diǎn)、邊界框或涂鴉的用戶輸入編碼成目標(biāo)對(duì)象的對(duì)應(yīng)視覺表示。然后，它們被集成到一個(gè)檢測(cè)器中，用于根據(jù)文本和視覺輸入從圖像中提取對(duì)象。

關(guān)于方案的詳細(xì)介紹建議感興趣的同學(xué)查看原文。AIWalker后臺(tái)回復(fù)【GLEE】即可下載原文與譯文，快快學(xué)習(xí)呀。

本文實(shí)驗(yàn)

如上表所示：我們的模型在COCO和LVIS基準(zhǔn)上都優(yōu)于所有通才模型。即使與其他最先進(jìn)的spec-cialist方法相比，我們的模型仍然具有很強(qiáng)的競(jìng)爭(zhēng)力。這表明，GLEE同時(shí)掌握普遍和一般的對(duì)象表示，同時(shí)保持先進(jìn)的能力，這種特性對(duì)于適應(yīng)需要精確目標(biāo)定位的廣泛下游任務(wù)至關(guān)重要。對(duì)于REC和RES任務(wù)，我們?cè)赗ef-COCO [120]，RefCOCO [120]和RefCOCOg [72]上評(píng)估了我們的模型，如表1所示，GLEE實(shí)現(xiàn)了與SOTA專業(yè)方法PolyFormer [62]相當(dāng)?shù)慕Y(jié)果，展示了強(qiáng)大的理解文本描述的能力，并展示了適應(yīng)更廣泛的多模態(tài)下游任務(wù)的潛力。在開放世界實(shí)例分割任務(wù)中，我們將“對(duì)象”視為類別名稱，指示模型以類不可知的方式識(shí)別圖像中所有可能的實(shí)例。GLEE比之前的ODISE [107]高出8.9分，證明了識(shí)別開放世界場(chǎng)景中可能存在的所有合理實(shí)例的能力。GLEE模型作為對(duì)象級(jí)視覺基礎(chǔ)模型的通用性和有效性，直接適用于各種以對(duì)象為中心的任務(wù)，同時(shí)確保最先進(jìn)的性能，而不需要微調(diào)。

zero-shot

如上表所示：GLEE超過先前最佳方法OVTrack 36.0%，在BURST中幾乎是最佳基線性能的三倍，在LV-VIS中超過OV 2Seg43.6%。這種出色的性能有力地驗(yàn)證了GLEE在處理一系列基準(zhǔn)測(cè)試和任務(wù)的對(duì)象級(jí)任務(wù)時(shí)的卓越泛化和zero-shot能力

Ablation

數(shù)據(jù)規(guī)模 使用10%、20%、50%、100%的訓(xùn)練數(shù)據(jù)訓(xùn)練GLEE-Pro，以評(píng)估zero-shot轉(zhuǎn)移任務(wù)的性能，包括TAO、BURST、OVIS和YTVIS。增加訓(xùn)練數(shù)據(jù)集的大小可增強(qiáng)不同下游任務(wù)的零觸發(fā)性能。
用作基礎(chǔ)模型 我們用一個(gè)凍結(jié)的、預(yù)訓(xùn)練的GLEE-Plus代替麗莎視覺中樞，并將來自GLEE的對(duì)象查詢饋送到LLAVA中，并去除LISA的解碼器。我們直接將輸出的SEG令牌與GLEE特征映射進(jìn)行點(diǎn)積來生成掩碼。經(jīng)過同樣數(shù)量的訓(xùn)練，改進(jìn)后的LISA-GLEE獲得了與原始版本相當(dāng)?shù)慕Y(jié)果，證明了GLEE表示的多功能性及其在服務(wù)于其他模型中的有效性。

效果展示

對(duì)于圖像級(jí)交互式分割，GLEE支持將點(diǎn)、框或涂鴉作為視覺提示發(fā)送到模型，從而實(shí)現(xiàn)指定對(duì)象的直接分割。在視頻對(duì)象分割的情況下，使用來自第一幀的掩蔽特征作為提示引用特征允許在視頻的后續(xù)幀中分割對(duì)應(yīng)的對(duì)象。

小結(jié)

我們介紹了一個(gè)先進(jìn)的對(duì)象級(jí)基礎(chǔ)模型GLEE，旨在直接適用于廣泛的對(duì)象級(jí)圖像和視頻任務(wù)。GLEE采用統(tǒng)一的學(xué)習(xí)范式，從不同監(jiān)督級(jí)別的不同數(shù)據(jù)源中學(xué)習(xí)；GLEE在許多對(duì)象級(jí)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能，并在zero-shot泛化到新數(shù)據(jù)和任務(wù)方面表現(xiàn)出色，顯示出其卓越的通用性和泛化能力。此外，GLEE提供了一般的視覺對(duì)象級(jí)信息，這是目前在現(xiàn)代LLM中缺失的，為以對(duì)象為中心的mLLM奠定了堅(jiān)實(shí)的基礎(chǔ)。

論文/代碼下載

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

GPT

SimVLM：拒絕各種花里胡哨！CMU&Google提出弱監(jiān)督極簡(jiǎn)VLP模型，在多個(gè)多模態(tài)任務(wù)上性能SOTA

多模態(tài)圖像版「GPT-3」來了！OpenAI推出DALL-E模型，一句話即可生成對(duì)應(yīng)圖像

萬字深度好文！視覺-語(yǔ)言（VL）智能：任務(wù)、表征學(xué)習(xí)和大型模型

多模態(tài)可控圖片生成統(tǒng)一模型來了，模型參數(shù)、推理代碼全部開源

這個(gè)預(yù)訓(xùn)練不簡(jiǎn)單！BLIP：統(tǒng)一視覺-語(yǔ)言理解和生成任務(wù)

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区