九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
視頻預(yù)訓(xùn)練界的HERO!微軟提出視頻-語(yǔ)言全表示預(yù)訓(xùn)練模型HERO,代碼已開源!

 寫在前面

在本文中,作者提出了HERO,一個(gè)新的大規(guī)模視頻+語(yǔ)言綜合表示學(xué)習(xí)框架。HERO以層次結(jié)構(gòu)編碼多模態(tài)輸入,其中視頻幀的局部上下文 通過多模態(tài)融合被跨模態(tài)Transformer(Cross-modal Transformer) 捕獲,而全局視頻上下文 時(shí)間Transformer(Temporal Transformer) 捕獲。

除了標(biāo)準(zhǔn)的 Masked Language Modeling(MLM) Masked Frame Modeling(MFM) 外,作者還設(shè)計(jì)了兩個(gè)新的預(yù)訓(xùn)練任務(wù):
(i) 視頻字幕匹配( Video-Subtitle Matching,VSM) ,其中模型預(yù)測(cè)全局和局部時(shí)間對(duì)齊;

(ii) 幀順序建模(Frame Order Modeling,F(xiàn)OM) ,其中模型預(yù)測(cè)打亂視頻幀的正確順序。

HERO在HowTo100M和大規(guī)模電視數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練,以了解多個(gè)域的視頻信息。綜合實(shí)驗(yàn)表明,HERO在基于文本的視頻/視頻時(shí)刻檢索、視頻問答(QA)、視頻和語(yǔ)言推理和視頻字幕任務(wù)上取得了SOTA水平。此外。作者還提出了兩個(gè)新的具有挑戰(zhàn)性的基準(zhǔn)測(cè)試——How2QAHow2R 的視頻QA和檢索。

 1. 論文和代碼地址

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

論文地址:https://arxiv.org/abs/2005.00200

代碼地址:https://github.com/linjieli222/HERO

 2. Motivation

受BERT啟發(fā),大規(guī)模的多模態(tài)預(yù)訓(xùn)練在視覺與語(yǔ)言研究領(lǐng)域盛行,比如ViLBERT,LXMERT,UNITER等等。然而,大多數(shù)大規(guī)模的預(yù)訓(xùn)練模型都是為靜態(tài)圖像量身定制的,而不是動(dòng)態(tài)視頻。

VideoBERT是第一個(gè)應(yīng)用BERT來(lái)學(xué)習(xí)視頻文本對(duì)的聯(lián)合嵌入的方法。但由于只有離散的token被用來(lái)表示視頻幀,豐富的視頻幀特征并沒有得到充分利用。為了解決這一點(diǎn),CBT提出使用對(duì)比損失,但僅用于視頻表示學(xué)習(xí)。
目前,一些約束條件固有地限制了現(xiàn)有模型的成功:
1) 大多數(shù)模型設(shè)計(jì)都是對(duì)BERT的直接調(diào)整,以字幕句子和視覺幀的簡(jiǎn)單concat結(jié)果作為輸入,同時(shí)失去了視頻和文本模態(tài)之間的時(shí)間對(duì)齊。

2) 預(yù)訓(xùn)練任務(wù)直接借鑒圖像+文本預(yù)訓(xùn)練方法,而不利用視頻的順序性質(zhì)。

3) 與現(xiàn)有工作中研究的不同圖像域相比,當(dāng)前視頻模型中使用的視頻數(shù)據(jù)集僅限于烹飪或敘述教學(xué)視頻,不包括包含動(dòng)態(tài)場(chǎng)景和復(fù)雜社會(huì)互動(dòng)的視頻源。

為了解決這些挑戰(zhàn),作者提出了一個(gè)新的視頻和語(yǔ)言大規(guī)模訓(xùn)練預(yù)框架——HEROH ierarchical E ncodeR  for O mni-representation learning)。HERO將一系列視頻片段幀及其附帶的字幕句子作為輸入。HERO沒有采用一個(gè)類似BERT的編碼器,而是以一種分層的方式對(duì)多模態(tài)輸入進(jìn)行編碼:
1) 跨模態(tài)Transformer 來(lái)融合字幕句子及其相應(yīng)的局部視頻幀;

2) 時(shí)間Transformer 使用所有周圍的幀作為全局上下文,來(lái)獲取每個(gè)視頻幀的順序上下文嵌入。

所提出的層次模型能夠首先在幀級(jí)別上吸收視覺和文本的局部上下文,然后轉(zhuǎn)移到全局視頻級(jí)的時(shí)間上下文中。實(shí)驗(yàn)表明,這種新型的模型設(shè)計(jì)比類似BERT的結(jié)構(gòu)具有更好的性能。
針對(duì)HERO,作者設(shè)計(jì)了四個(gè)預(yù)訓(xùn)練任務(wù):
1) Masked Language Modeling(MLM) 

2) Masked Frame Modeling(MFM) 

3) Video-Subtitle Matching(VSM) 

4) Frame Order Modeling(FOM) 

與之前的工作相比,關(guān)鍵的新穎之處是VSM和FOM,它鼓勵(lì)多模態(tài)之間顯式時(shí)間對(duì)齊,以及對(duì)視頻輸入的順序性質(zhì)進(jìn)行開發(fā)。在VSM中,該模型不僅考慮全局對(duì)齊(預(yù)測(cè)字幕是否與輸入的視頻片段相匹配),而且還考慮局部時(shí)間對(duì)齊(檢索視頻片段中字幕的時(shí)刻)。
在FOM中,作者隨機(jī)選擇并打亂視頻幀的一個(gè)子集,并訓(xùn)練模型恢復(fù)它們的原始順序。大量的消融研究表明,VSM和FOM在視頻+語(yǔ)言預(yù)訓(xùn)練中都起著關(guān)鍵作用。
為了使模型擁有更豐富的知識(shí),作者在HowTo100M和大規(guī)模電視數(shù)據(jù)集聯(lián)合訓(xùn)練HERO。與HowTo100M中的描述相比,電視數(shù)據(jù)集包含了更復(fù)雜的情節(jié),需要全面解釋人類情感、社會(huì)動(dòng)態(tài)和事件的因果關(guān)系,使其成為對(duì)HowTo100M的有價(jià)值的補(bǔ)充,并更接近現(xiàn)實(shí)生活場(chǎng)景。
現(xiàn)有的預(yù)訓(xùn)練模型都是在YouCook2和MSR-VTT數(shù)據(jù)集上進(jìn)行的評(píng)估。YouCook2只關(guān)注烹飪視頻,而MSR-VTT中的標(biāo)題非常簡(jiǎn)單。為了在更具挑戰(zhàn)性的基準(zhǔn)測(cè)試上評(píng)估本文的模型,作者收集了兩個(gè)關(guān)于視頻時(shí)刻檢索和問答的新數(shù)據(jù)集——How2R和How2QA。
此外,作者還評(píng)估了HERO在流行的檢索和QA任務(wù)上的性能,如TVR和TVQA,在這些任務(wù)中,HERO的性能遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有模型。此外,作者進(jìn)一步證明了本文模型的泛化性:
1) 將HERO用于不同的下游任務(wù) (視頻和語(yǔ)言推理和視頻字幕任務(wù)),并在VIOLIN和TVC數(shù)據(jù)集上達(dá)到了SOTA的性能;

2) 采用不同的視頻類型 :?jiǎn)晤l道視頻(僅限視頻)和多頻道視頻(視頻+字幕),并在DiDeMo和MSR-VTT數(shù)據(jù)集上達(dá)到了SOTA性能。

 3. 方法

3.1 Model Architecture

HERO的模型架構(gòu)如上圖所示,它以視頻片段的幀和字幕句子的文本token作為輸入。它們被輸入到一個(gè)視頻嵌入器和一個(gè)文本嵌入器中來(lái)提取初始表示。HERO在一個(gè)層次化的過程中計(jì)算上下文化的視頻嵌入。
首先,每個(gè)視覺幀的局部文本上下文被一個(gè)跨模態(tài)Transformer 捕獲,計(jì)算字幕句子與其相關(guān)視覺幀之間的上下文化多模態(tài)嵌入。然后將整個(gè)視頻片段的編碼幀嵌入輸入到時(shí)間Transformer 中,學(xué)習(xí)全局視頻上下文,并獲得最終的上下文化視頻嵌入。

Input Embedder

將視頻片段的視覺幀表示為,其字幕表示為,是視頻片段中的視頻幀數(shù),是字幕中的句子數(shù)。對(duì)于文本嵌入器,首先將字幕句子轉(zhuǎn)換為WordPieces序列,即(L是中的token數(shù))。每個(gè)單詞的最終表示是通過將其token嵌入和位置嵌入相加,然后再加一個(gè)層歸一化(LN)得到。

對(duì)于視頻嵌入器,作者首先使用預(yù)訓(xùn)練的ResNet和SlowFast提取每個(gè)視頻幀的二維和三維視覺特征。這些視覺特征concat起來(lái),并通過一個(gè)全連接(FC)層投影到與token嵌入投影到相同的低維空間中。
由于視頻幀是順序的,因此它們的位置嵌入可以與文本嵌入器中相同的方式進(jìn)行計(jì)算。通過將FC輸出和位置嵌入相加,然后通過一個(gè)LN層,得到了幀的最終嵌入。在輸入嵌入器后,的token和幀嵌入表示為。

Cross-modal Transformer

為了利用字幕和視頻幀之間的固有對(duì)齊,對(duì)于每個(gè)字幕句子,作者首先通過跨模態(tài)注意學(xué)習(xí)相應(yīng)的token與其相關(guān)的視覺幀之間的上下文嵌入??缒B(tài)Transformer的輸出是針對(duì)每個(gè)字幕token和每個(gè)視頻幀得到的上下文化嵌入序列:

其中表示跨模態(tài)Transformer,。

Temporal Transformer

在從跨模態(tài)Transformer的輸出中收集了所有的視覺幀嵌入后,作者使用另一個(gè)Transformer作為時(shí)間Attention,從視頻片段的全局上下文中學(xué)習(xí)上下文化的視頻嵌入。為了避免丟失位置信息,作者使用殘差連接來(lái)添加。最終的上下文化視頻嵌入的計(jì)算方法為:

其中表示時(shí)間Transformer,。與BERT直接連接所有文本token和視覺幀作為輸入的編碼器相比,本文的模型有效地利用字幕句子和視頻幀之間的時(shí)間對(duì)齊,以更細(xì)粒度的方式進(jìn)行多模態(tài)融合。在實(shí)驗(yàn)中,作者證明了本文的模型設(shè)計(jì)遠(yuǎn)遠(yuǎn)優(yōu)于BERT。

3.2 Pre-training Tasks

作者提出了四個(gè)預(yù)訓(xùn)練任務(wù)。在訓(xùn)練過程中,每個(gè)mini-batch采樣一個(gè)任務(wù),以防止不同的任務(wù)破壞彼此的輸入。如上圖所示,MFM和MLM與BERT相似。單詞Mask是通過用特殊的[MASK] token 來(lái)替換一個(gè)單詞,通過將幀特征向量替換為零向量來(lái)實(shí)現(xiàn)幀Mask。
作者每次只mask一種模態(tài),同時(shí)保持另一種模態(tài)的完整。VSM旨在學(xué)習(xí)局部對(duì)齊(在視覺幀和字幕句子之間)和全局對(duì)齊(在視頻片段和字幕句子序列之間)。FOM是通過學(xué)習(xí)隨機(jī)重排序幀的原始順序來(lái)建模視頻的順序特征的。

3.2.1 Masked Language Modeling

MLM的輸入包括:(1)第i個(gè)字幕的單詞token;(2)與對(duì)齊的視覺幀;(3)mask索引(其中M為mask token的數(shù)量,為mask的索引)。

在MLM中,作者隨機(jī)以15%的概率mask輸入單詞,并用特殊的[MASK] token替換需要mask的token。目標(biāo)是通過周圍單詞和與句子對(duì)齊的視覺幀來(lái)預(yù)測(cè)這些mask單詞,損失函數(shù)為最小化預(yù)測(cè)負(fù)對(duì)數(shù)可能性:

其中,θ表示可訓(xùn)練的參數(shù)。每對(duì)都從訓(xùn)練集D中采樣。

3.2.2 Masked Frame Modeling

與MLM類似,作者也對(duì)幀進(jìn)行采樣,并以15%的概率mask它們的視覺特征。然而,不同之處在于,MLM是在局部上下文(即跨模態(tài)Transformer的輸出)上執(zhí)行的,而MFM是在全局上下文(即時(shí)間Transformer的輸出上執(zhí)行的)。

根據(jù)剩余的幀和所有的字幕句子,訓(xùn)練模型重構(gòu)mask的幀。被mask的視覺幀用零向量替代,與用離散標(biāo)簽表示的文本token不同,視覺特征是高維和連續(xù)的,因此不能通過類的似然進(jìn)行監(jiān)督。因此作者提出了MFM的兩種變體,它們具有相同的目標(biāo):


Masked Frame Feature Regression (MFFR)

MFFR學(xué)習(xí)將每個(gè)mask幀上的輸出回歸到其視覺特征。具體來(lái)說(shuō),作者應(yīng)用一個(gè)FC層將輸出幀表示轉(zhuǎn)換為與輸入視覺特征相同維度的向量。然后在兩者之間應(yīng)用L2回歸:

Masked Frame Modeling with Noise Contrastive Estimation (MNCE)

作者使用了噪聲對(duì)比估計(jì)(NCE)損失的softmax版本,而不是直接回歸mask視覺特征的真實(shí)值。NCE損失鼓勵(lì)模型在給定上下文的情況下,識(shí)別正確的幀。與MFFR類似,作者將mask幀的輸出輸入到一個(gè)FC層,將它們投影到一個(gè)向量中。

此外,作者從未mask幀的輸出中隨機(jī)采樣幀,作為negative distractors,這些幀也通過相同的FC層進(jìn)行轉(zhuǎn)換得到。最終目標(biāo)是將NCE損失最小化:


3.2.3 Video-Subtitle Matching

VSM的輸入包括:(1)從所有字幕句子中采樣的查詢;(2)整個(gè)視頻片段;(3)視頻片段的剩余字幕句子。作者希望模型學(xué)習(xí):

1) 局部對(duì)齊 ——開始和結(jié)束索引,表示與查詢對(duì)齊的視覺幀的span;

2) 全局對(duì)齊 ——匹配采樣查詢的整個(gè)視頻。

在VSM中,作者計(jì)算了在局部和全局水平上的查詢和視覺幀之間的匹配分?jǐn)?shù)。具體來(lái)說(shuō),作者提取時(shí)間Transformer的輸出作為最終的視覺幀表示。查詢被輸入跨模態(tài)Transformer,以計(jì)算其文本表示:

在此基礎(chǔ)上,作者使用一個(gè)查詢編碼器,由一個(gè)自注意層、兩個(gè)線性層和一個(gè)LN層組成,從中獲得最終的查詢向量

Local Alignment

局部查詢視頻匹配得分采用點(diǎn)積進(jìn)行計(jì)算:

對(duì)分?jǐn)?shù)應(yīng)用兩個(gè)可訓(xùn)練的一維卷積濾波器,然后是一個(gè)Softmax,以生成兩個(gè)概率向量,表示每個(gè)位置是ground-truth span的開始和結(jié)束的概率。在訓(xùn)練過程中,作者對(duì)每個(gè)視頻抽取15%的字幕句子作為樣本的查詢,并使用交叉熵?fù)p失來(lái)預(yù)測(cè)局部對(duì)齊的開始和結(jié)束索引:

其中表示向量p的第y個(gè)元素的索引。注意,XML分別計(jì)算了每種模態(tài)的查詢-視頻匹配得分,最終的匹配得分是兩個(gè)分?jǐn)?shù)之和。

Global Alignment

全局匹配分?jǐn)?shù)是通過max-pooling每一幀和查詢之間的余弦相似性來(lái)計(jì)算的:

作者在正、負(fù)的查詢視頻對(duì)上使用了一個(gè)combined hinge loss。對(duì)于每對(duì)正對(duì),作者將替換為同一mini-batch中的另一個(gè)樣本,以構(gòu)建兩組負(fù)對(duì):。訓(xùn)練損失可以表示為:

其中,δ是margin超參數(shù)。最后的損失是,其中λ1和λ2是平衡這兩項(xiàng)的超參數(shù)。

3.2.4 Frame Order Modeling

FOM的輸入包括:(1)所有字幕句子s;(2)視覺幀v;(3)重排序索引。作者隨機(jī)選擇15%的幀進(jìn)行打亂,目標(biāo)是重建它們的原始時(shí)間順序,記為,其中。作者將FOM表示為一個(gè)分類問題,其中t是重排序幀的ground-truth標(biāo)簽。

具體來(lái)說(shuō),重新排序發(fā)生在字幕和視覺幀的多模態(tài)融合之后。重新排序的特征被輸入時(shí)間Transformer,產(chǎn)生重新排序的視覺幀嵌入。這些嵌入通過一個(gè)FC層進(jìn)行轉(zhuǎn)換,然后是一個(gè)softmax層來(lái)生成一個(gè)概率矩陣,其中每一列代表第i個(gè)時(shí)間戳所屬的個(gè)時(shí)間戳類的分?jǐn)?shù)。最終的目標(biāo)是最小化負(fù)對(duì)數(shù)似然(交叉熵?fù)p失):


 4.實(shí)驗(yàn)

4.1. Ablation Study

上表展示了不同預(yù)訓(xùn)練任務(wù)的實(shí)驗(yàn)結(jié)果,可以看出,本文提出的兩個(gè)預(yù)訓(xùn)練任務(wù)對(duì)于實(shí)驗(yàn)性能的提升確實(shí)是有效果的。

上表展示了模型設(shè)計(jì)的消融實(shí)驗(yàn),可以看出,沒有預(yù)訓(xùn)練之后,F(xiàn)-TRM(類似于BERT的Encoder)在兩個(gè)任務(wù)上性能都會(huì)下降;預(yù)訓(xùn)練可以大大提高了HERO的性能,但F-TRM或H-TRM的效果不大。

4.2. Results on Downstream Tasks

上表展示了SOTA方法和本文方法的性能對(duì)比,可以看出,本文的性能能夠大大超過以前的SOTA方法。

 5. 總結(jié)

在本文中,作者提出了一種用于視頻+語(yǔ)言全表示預(yù)訓(xùn)練的層次編碼器。本文的HERO模型提出了一個(gè)層次結(jié)構(gòu),包括跨模態(tài)Transformer和時(shí)間Transformer的多模態(tài)融合。

作者提出了新的預(yù)訓(xùn)練任務(wù)來(lái)捕獲局部和全局的時(shí)間對(duì)齊。在兩個(gè)大規(guī)模視頻數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練之后,當(dāng)HERO遷移到多個(gè)視頻和語(yǔ)言任務(wù)時(shí),HERO大大超過了SOTA水平。此外,作者還提出了兩個(gè)基于文本的視頻時(shí)刻檢索和視頻QA的新數(shù)據(jù)集,作為下游評(píng)估的額外基準(zhǔn)。

▊ 作者簡(jiǎn)介

研究領(lǐng)域:FightingCV公眾號(hào)運(yùn)營(yíng)者,研究方向?yàn)槎嗄B(tài)內(nèi)容理解,專注于解決視覺模態(tài)和語(yǔ)言模態(tài)相結(jié)合的任務(wù),促進(jìn)Vision-Language模型的實(shí)地應(yīng)用。

知乎/眾號(hào):FightingCV

END

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
像GPT-4一樣能看懂圖文,李飛飛等人的具身AI給機(jī)器人造了個(gè)多模態(tài)對(duì)話框
【論文解讀】UniLM:一種既能閱讀又能自動(dòng)生成的預(yù)訓(xùn)練模型
圖解GPT-2(完整版)!
論文解讀:Bert原理深入淺出
BERT模型詳解
BERT的通俗理解 預(yù)訓(xùn)練模型 微調(diào)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服