九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
通用檢測(cè)大模型 | 華科白翔團(tuán)隊(duì)提出以對(duì)象為中心的基礎(chǔ)模型GLEE

底層視覺干貨,即可獲取

https://arxiv.org/abs/2312.09158
https://glee-vision.github.io
AIWalker后臺(tái)回復(fù)【GLEE】即可下載原文與譯文。

在這項(xiàng)工作中,我們提出了GLEE:一個(gè)對(duì)象級(jí)的基礎(chǔ)模型,用于定位和識(shí)別圖像和視頻中的對(duì)象。

  • 通過一個(gè)統(tǒng)一的框架,GLEE可以在開放世界場(chǎng)景中完成任意物體的檢測(cè)、分割、跟蹤、接地和識(shí)別,以完成各種物體感知任務(wù)。
  • 采用內(nèi)聚學(xué)習(xí)策略,GLEE從不同監(jiān)督級(jí)別的不同數(shù)據(jù)源中獲取知識(shí),以形成通用對(duì)象表示,擅長(zhǎng)零次遷移到新數(shù)據(jù)和任務(wù)。

具體來說,我們采用圖像編碼器,文本編碼器和視覺解碼器來處理多模態(tài)輸入,從而能夠同時(shí)解決各種以對(duì)象為中心的下游任務(wù),同時(shí)保持最先進(jìn)的性能。通過對(duì)來自不同基準(zhǔn)的500多萬張圖像進(jìn)行廣泛的訓(xùn)練,GLEE表現(xiàn)出顯著的多功能性和改進(jìn)的泛化性能,有效地處理下游任務(wù),而不需要特定于任務(wù)的適應(yīng)。通過集成大量的自動(dòng)標(biāo)注數(shù)據(jù),我們進(jìn)一步增強(qiáng)了其零炮概化能力。此外,GLEE能夠被集成到大型語(yǔ)言模型中,作為基礎(chǔ)模型為多模態(tài)任務(wù)提供通用的對(duì)象級(jí)信息。我們希望,我們的方法的可靠性和普遍性將標(biāo)志著一個(gè)重要的一步,有效的視覺基礎(chǔ)模型的AGI系統(tǒng)的發(fā)展。模型和代碼將在/上發(fā)布。

本文亮點(diǎn)

  1. 我們提出了GLEE:一個(gè)通用的以對(duì)象為中心的基礎(chǔ)模型的圖像和視頻, GLEE能夠同時(shí)處理各種以對(duì)象為中心的任務(wù),同時(shí)保持最先進(jìn)的性能。
  2. 我們開發(fā)了一個(gè)多粒度的聯(lián)合監(jiān)督框架和一個(gè)可擴(kuò)展的訓(xùn)練范例。GLEE的統(tǒng)一方法支持多源數(shù)據(jù),并能夠?qū)碜圆煌O(jiān)督級(jí)別的各種基準(zhǔn)的500多萬張圖像進(jìn)行聯(lián)合訓(xùn)練。這大大方便了額外的手動(dòng)或自動(dòng)注釋數(shù)據(jù)的合并,并簡(jiǎn)化了數(shù)據(jù)集的縮放。
  3. GLEE在對(duì)象級(jí)圖像和視頻任務(wù)的范圍內(nèi)展示了卓越的通用性和強(qiáng)大的zero-shot可傳輸性。此外,GLEE可以提供現(xiàn)代LLM目前缺乏的可視化對(duì)象級(jí)信息,從而作為增強(qiáng)其他架構(gòu)或模型的基礎(chǔ)組件。

本文方案

如圖所示,所提GLEE包括一個(gè)圖像編碼器,一個(gè)文本編碼器,一個(gè)視覺解碼器,和一個(gè)對(duì)象解碼器。文本編碼器處理與任務(wù)相關(guān)的任意描述,包括對(duì)象類別、任何形式的名稱、關(guān)于對(duì)象的標(biāo)題和引用表達(dá)式。視覺識(shí)別器在交互式分割期間將諸如點(diǎn)、邊界框或涂鴉的用戶輸入編碼成目標(biāo)對(duì)象的對(duì)應(yīng)視覺表示。然后,它們被集成到一個(gè)檢測(cè)器中,用于根據(jù)文本和視覺輸入從圖像中提取對(duì)象。

關(guān)于方案的詳細(xì)介紹建議感興趣的同學(xué)查看原文。AIWalker后臺(tái)回復(fù)【GLEE】即可下載原文與譯文,快快學(xué)習(xí)呀。

本文實(shí)驗(yàn)

如上表所示:我們的模型在COCO和LVIS基準(zhǔn)上都優(yōu)于所有通才模型。即使與其他最先進(jìn)的spec-cialist方法相比,我們的模型仍然具有很強(qiáng)的競(jìng)爭(zhēng)力。這表明,GLEE同時(shí)掌握普遍和一般的對(duì)象表示,同時(shí)保持先進(jìn)的能力, 這種特性對(duì)于適應(yīng)需要精確目標(biāo)定位的廣泛下游任務(wù)至關(guān)重要。對(duì)于REC和RES任務(wù),我們?cè)赗ef-COCO [120],RefCOCO [120]和RefCOCOg [72]上評(píng)估了我們的模型,如表1所示,GLEE實(shí)現(xiàn)了與SOTA專業(yè)方法PolyFormer [62]相當(dāng)?shù)慕Y(jié)果,展示了強(qiáng)大的理解文本描述的能力,并展示了適應(yīng)更廣泛的多模態(tài)下游任務(wù)的潛力。在開放世界實(shí)例分割任務(wù)中,我們將“對(duì)象”視為類別名稱,指示模型以類不可知的方式識(shí)別圖像中所有可能的實(shí)例。GLEE比之前的ODISE [107]高出8.9分,證明了識(shí)別開放世界場(chǎng)景中可能存在的所有合理實(shí)例的能力。GLEE模型作為對(duì)象級(jí)視覺基礎(chǔ)模型的通用性和有效性,直接適用于各種以對(duì)象為中心的任務(wù),同時(shí)確保最先進(jìn)的性能,而不需要微調(diào)。

zero-shot

如上表所示:GLEE超過先前最佳方法OVTrack 36.0%,在BURST中幾乎是最佳基線性能的三倍,在LV-VIS中超過OV 2Seg43.6%。這種出色的性能有力地驗(yàn)證了GLEE在處理一系列基準(zhǔn)測(cè)試和任務(wù)的對(duì)象級(jí)任務(wù)時(shí)的卓越泛化和zero-shot能力

Ablation

  • 數(shù)據(jù)規(guī)模 使用10%、20%、50%、100%的訓(xùn)練數(shù)據(jù)訓(xùn)練GLEE-Pro,以評(píng)估zero-shot轉(zhuǎn)移任務(wù)的性能,包括TAO、BURST、OVIS和YTVIS。增加訓(xùn)練數(shù)據(jù)集的大小可增強(qiáng)不同下游任務(wù)的零觸發(fā)性能。

  • 用作基礎(chǔ)模型 我們用一個(gè)凍結(jié)的、預(yù)訓(xùn)練的GLEE-Plus代替麗莎視覺中樞,并將來自GLEE的對(duì)象查詢饋送到LLAVA中,并去除LISA的解碼器。我們直接將輸出的SEG令牌與GLEE特征映射進(jìn)行點(diǎn)積來生成掩碼。經(jīng)過同樣數(shù)量的訓(xùn)練,改進(jìn)后的LISA-GLEE獲得了與原始版本相當(dāng)?shù)慕Y(jié)果,證明了GLEE表示的多功能性及其在服務(wù)于其他模型中的有效性

效果展示

對(duì)于圖像級(jí)交互式分割,GLEE支持將點(diǎn)、框或涂鴉作為視覺提示發(fā)送到模型,從而實(shí)現(xiàn)指定對(duì)象的直接分割。在視頻對(duì)象分割的情況下,使用來自第一幀的掩蔽特征作為提示引用特征允許在視頻的后續(xù)幀中分割對(duì)應(yīng)的對(duì)象。

小結(jié)

我們介紹了一個(gè)先進(jìn)的對(duì)象級(jí)基礎(chǔ)模型GLEE,旨在直接適用于廣泛的對(duì)象級(jí)圖像和視頻任務(wù)。GLEE采用統(tǒng)一的學(xué)習(xí)范式,從不同監(jiān)督級(jí)別的不同數(shù)據(jù)源中學(xué)習(xí);GLEE在許多對(duì)象級(jí)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能,并在zero-shot泛化到新數(shù)據(jù)和任務(wù)方面表現(xiàn)出色,顯示出其卓越的通用性和泛化能力。此外,GLEE提供了一般的視覺對(duì)象級(jí)信息,這是目前在現(xiàn)代LLM中缺失的,為以對(duì)象為中心的mLLM奠定了堅(jiān)實(shí)的基礎(chǔ)。

論文/代碼下載

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
GPT
SimVLM:拒絕各種花里胡哨!CMU&Google提出弱監(jiān)督極簡(jiǎn)VLP模型,在多個(gè)多模態(tài)任務(wù)上性能SOTA
多模態(tài)圖像版「GPT-3」來了!OpenAI推出DALL-E模型,一句話即可生成對(duì)應(yīng)圖像
萬字深度好文!視覺-語(yǔ)言(VL)智能:任務(wù)、表征學(xué)習(xí)和大型模型
多模態(tài)可控圖片生成統(tǒng)一模型來了,模型參數(shù)、推理代碼全部開源
這個(gè)預(yù)訓(xùn)練不簡(jiǎn)單!BLIP:統(tǒng)一視覺-語(yǔ)言理解和生成任務(wù)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服