▊ 寫在前面
在本文中,作者提出了HERO,一個(gè)新的大規(guī)模視頻+語(yǔ)言綜合表示學(xué)習(xí)框架。HERO以層次結(jié)構(gòu)編碼多模態(tài)輸入,其中視頻幀的局部上下文 通過多模態(tài)融合被跨模態(tài)Transformer(Cross-modal Transformer) 捕獲,而全局視頻上下文 由時(shí)間Transformer(Temporal Transformer) 捕獲。
(ii) 幀順序建模(Frame Order Modeling,F(xiàn)OM) ,其中模型預(yù)測(cè)打亂視頻幀的正確順序。
▊ 1. 論文和代碼地址
論文地址:https://arxiv.org/abs/2005.00200
代碼地址:https://github.com/linjieli222/HERO
▊ 2. Motivation
受BERT啟發(fā),大規(guī)模的多模態(tài)預(yù)訓(xùn)練在視覺與語(yǔ)言研究領(lǐng)域盛行,比如ViLBERT,LXMERT,UNITER等等。然而,大多數(shù)大規(guī)模的預(yù)訓(xùn)練模型都是為靜態(tài)圖像量身定制的,而不是動(dòng)態(tài)視頻。
2) 預(yù)訓(xùn)練任務(wù)直接借鑒圖像+文本預(yù)訓(xùn)練方法,而不利用視頻的順序性質(zhì)。
3) 與現(xiàn)有工作中研究的不同圖像域相比,當(dāng)前視頻模型中使用的視頻數(shù)據(jù)集僅限于烹飪或敘述教學(xué)視頻,不包括包含動(dòng)態(tài)場(chǎng)景和復(fù)雜社會(huì)互動(dòng)的視頻源。
2) 時(shí)間Transformer 使用所有周圍的幀作為全局上下文,來(lái)獲取每個(gè)視頻幀的順序上下文嵌入。
2) Masked Frame Modeling(MFM)
3) Video-Subtitle Matching(VSM)
4) Frame Order Modeling(FOM)
2) 采用不同的視頻類型 :?jiǎn)晤l道視頻(僅限視頻)和多頻道視頻(視頻+字幕),并在DiDeMo和MSR-VTT數(shù)據(jù)集上達(dá)到了SOTA性能。
▊ 3. 方法
將視頻片段的視覺幀表示為,其字幕表示為,是視頻片段中的視頻幀數(shù),是字幕中的句子數(shù)。對(duì)于文本嵌入器,首先將字幕句子轉(zhuǎn)換為WordPieces序列,即(L是中的token數(shù))。每個(gè)單詞的最終表示是通過將其token嵌入和位置嵌入相加,然后再加一個(gè)層歸一化(LN)得到。
為了利用字幕和視頻幀之間的固有對(duì)齊,對(duì)于每個(gè)字幕句子,作者首先通過跨模態(tài)注意學(xué)習(xí)相應(yīng)的token與其相關(guān)的視覺幀之間的上下文嵌入??缒B(tài)Transformer的輸出是針對(duì)每個(gè)字幕token和每個(gè)視頻幀得到的上下文化嵌入序列:
其中表示跨模態(tài)Transformer,。
在從跨模態(tài)Transformer的輸出中收集了所有的視覺幀嵌入后,作者使用另一個(gè)Transformer作為時(shí)間Attention,從視頻片段的全局上下文中學(xué)習(xí)上下文化的視頻嵌入。為了避免丟失位置信息,作者使用殘差連接來(lái)添加。最終的上下文化視頻嵌入的計(jì)算方法為:
其中表示時(shí)間Transformer,。與BERT直接連接所有文本token和視覺幀作為輸入的編碼器相比,本文的模型有效地利用字幕句子和視頻幀之間的時(shí)間對(duì)齊,以更細(xì)粒度的方式進(jìn)行多模態(tài)融合。在實(shí)驗(yàn)中,作者證明了本文的模型設(shè)計(jì)遠(yuǎn)遠(yuǎn)優(yōu)于BERT。
MLM的輸入包括:(1)第i個(gè)字幕的單詞token;(2)與對(duì)齊的視覺幀;(3)mask索引(其中M為mask token的數(shù)量,為mask的索引)。
其中,θ表示可訓(xùn)練的參數(shù)。每對(duì)都從訓(xùn)練集D中采樣。
與MLM類似,作者也對(duì)幀進(jìn)行采樣,并以15%的概率mask它們的視覺特征。然而,不同之處在于,MLM是在局部上下文(即跨模態(tài)Transformer的輸出)上執(zhí)行的,而MFM是在全局上下文(即時(shí)間Transformer的輸出上執(zhí)行的)。
MFFR學(xué)習(xí)將每個(gè)mask幀上的輸出回歸到其視覺特征。具體來(lái)說(shuō),作者應(yīng)用一個(gè)FC層將輸出幀表示轉(zhuǎn)換為與輸入視覺特征相同維度的向量。然后在兩者之間應(yīng)用L2回歸:
作者使用了噪聲對(duì)比估計(jì)(NCE)損失的softmax版本,而不是直接回歸mask視覺特征的真實(shí)值。NCE損失鼓勵(lì)模型在給定上下文的情況下,識(shí)別正確的幀。與MFFR類似,作者將mask幀的輸出輸入到一個(gè)FC層,將它們投影到一個(gè)向量中。
VSM的輸入包括:(1)從所有字幕句子中采樣的查詢;(2)整個(gè)視頻片段;(3)視頻片段的剩余字幕句子。作者希望模型學(xué)習(xí):
2) 全局對(duì)齊 ——匹配采樣查詢的整個(gè)視頻。
在此基礎(chǔ)上,作者使用一個(gè)查詢編碼器,由一個(gè)自注意層、兩個(gè)線性層和一個(gè)LN層組成,從中獲得最終的查詢向量。
局部查詢視頻匹配得分采用點(diǎn)積進(jìn)行計(jì)算:
對(duì)分?jǐn)?shù)應(yīng)用兩個(gè)可訓(xùn)練的一維卷積濾波器,然后是一個(gè)Softmax,以生成兩個(gè)概率向量,表示每個(gè)位置是ground-truth span的開始和結(jié)束的概率。在訓(xùn)練過程中,作者對(duì)每個(gè)視頻抽取15%的字幕句子作為樣本的查詢,并使用交叉熵?fù)p失來(lái)預(yù)測(cè)局部對(duì)齊的開始和結(jié)束索引:
其中表示向量p的第y個(gè)元素的索引。注意,XML分別計(jì)算了每種模態(tài)的查詢-視頻匹配得分,最終的匹配得分是兩個(gè)分?jǐn)?shù)之和。
全局匹配分?jǐn)?shù)是通過max-pooling每一幀和查詢之間的余弦相似性來(lái)計(jì)算的:
作者在正、負(fù)的查詢視頻對(duì)上使用了一個(gè)combined hinge loss。對(duì)于每對(duì)正對(duì),作者將或替換為同一mini-batch中的另一個(gè)樣本,以構(gòu)建兩組負(fù)對(duì):和。訓(xùn)練損失可以表示為:
其中,δ是margin超參數(shù)。最后的損失是,其中λ1和λ2是平衡這兩項(xiàng)的超參數(shù)。
FOM的輸入包括:(1)所有字幕句子s;(2)視覺幀v;(3)重排序索引。作者隨機(jī)選擇15%的幀進(jìn)行打亂,目標(biāo)是重建它們的原始時(shí)間順序,記為,其中。作者將FOM表示為一個(gè)分類問題,其中t是重排序幀的ground-truth標(biāo)簽。
▊ 4.實(shí)驗(yàn)
▊ 5. 總結(jié)
在本文中,作者提出了一種用于視頻+語(yǔ)言全表示預(yù)訓(xùn)練的層次編碼器。本文的HERO模型提出了一個(gè)層次結(jié)構(gòu),包括跨模態(tài)Transformer和時(shí)間Transformer的多模態(tài)融合。
▊ 作者簡(jiǎn)介
知乎/公眾號(hào):FightingCV
END
聯(lián)系客服